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量化 金融 投资 以 数据 为 基础 ,以 统计 和 优化 等 数学 模型 为 核心 ,结合 现代 金融 理论 ( 金 
融 市 场 及 机 构 、 投 资 学 .金融 工程 等 ) ,在 各 类 金融 机 构 以 及 监管 部 门 中 都 有 广泛 的 应 用 。 其 
中 量化 金融 起 源 于 投资 组 合理 论 , 随 着 投资 管理 技术 .计算 机 技术 的 发 展 以 及 金融 市 场 的 逐 
步 成 熟 , 量 化 金融 得 到 了 迅速 发 展 。 在 目前 国际 国内 经 济 大 背景 下 以 及 中 国 股市 .期 货 市 场 
形态 多 变 的 投资 环境 下 ,量化 金融 应 如 何 调整 策略 以 适应 新 的 投资 环境 ? 量化 金融 该 如 何 
在 期 货 市 场 持续 发 展 ” 如 何在 中 国 的 市 场 环境 中 开展 量化 金融 与 对 冲 基金 业务 ? 这 些 问 题 
值得 我 们 深思 ,更 吸 须 学 者 们 进行 深入 研究 ,为 中 国 量化 金融 投资 发 展 指明 方向 。 本 书 的 构 
思 正 是 在 这 样 背景 下 形成 的 。 

随 着 信息 科技 的 普及 、 金 融 计量 方法 的 莲 孝 发 展 以 及 金融 衍生 工具 的 多 样 化 ,金融 科技 
与 量化 金融 正在 快速 发 展 ,掀起 了 一 股 热潮 ,金融 市 场 特别 是 基金 和 证 券 行业 对 金融 科技 与 
量化 金融 人 才 的 需求 逐年 攀升 ,但 在 金融 市 场 上 这 方面 的 金融 科技 人 才 却 十 分 匮乏 。 目 前 
国内 * 量 化 金融 ”( 也 称 * 量 化 投资 ”这 门 新 兴 交 叉 学 科 缺 乏 相 应 的 教学 辅导 资料 ,而且 许多 
高 等 学 校对 这 门 学 科 的 建设 缺乏 经 验 , 甚 至 在 国内 高 等 教育 领域 是 一 个 空白 。 鉴 于 此 ,作者 
依据 金融 科技 与 量化 金融 专业 创新 型 人 才 培 养 的 知识 结构 要 求 编 写 了 这 本 量化 金融 投资 
书籍 。 

本 书 以 优 矿 量化 金融 投资 平台 为 基础 ,利用 我 国 的 实际 数据 给 出 金融 投资 方法 与 策略 
的 Python 应 用 ,具有 很 高 的 实用 价值 。 需 要 说 明 的 是 : 本 书 少 部 分 章节 的 代码 在 Python 
2.7 环境 中 调试 通过 (如 第 20 章 ; 第 2 章 可 在 IPython 环境 中 运行 ,也 可 在 优 矿 平台 环境 中 
运行 ) ,大 部 分 章节 的 代码 都 在 优 矿 平 台 环境 中 调试 通过 。 本 书 侧重 于 实际 应 用 ,实例 丰富 
且 通 俗 易 懂 , 重 点 介绍 了 量化 金融 投资 中 的 Python 应 用 。 

本 书 内 容 安排 如 下 : 第 1 章 介 绍 量化 金融 投资 平台 与 Python 工作 环境 ; 第 2 章 介绍 
Python 基础 知识 与 编程 基础 ; 第 3 章 介 绍 NumPy 在 量化 金融 投资 分 析 中 的 应 用 ; 第 4 章 
介绍 SciPy 在 量化 金融 投资 分 析 中 的 应 用 ; 第 5 章 介绍 Pandas 的 基本 数据 结构 ; 第 6 章 介 
绍 Pandas 在 金融 数据 处 理 中 的 应 用 ; 第 7 章 介绍 金融 时 间 序 列 分 析 及 其 Python 应 用 ; 第 
8 章 介 绍 中 国 股市 分 析 及 其 Python 应 用 ; 第 9 章 介 绍 机 器 学 习 神 经 网 络 算法 及 其 Python 
应 用 ; 第 10 章 介绍 机 器 学 习 支 持 向 量 机 SVM 及 其 Python 应 用 ; 第 11 章 介 绍 欧式 期 权 定 
价 的 Python 应 用 ; 第 12 章 介绍 函数 插值 的 Python 应 用 ; 第 13 章 介绍 期 权 定价 二 又 树 算 
法 的 Python 应 用 ; 第 14 章 介绍 偏 微分 方程 显 式 差分 法 的 Python 应 用 ; 第 15 章 介 绍 偏 微 
分 方程 隐 式 差分 法 的 Python 应 用 ; 第 16 章 介 绍 Black-Scholes 偏 微分 方程 隐 含 差分 法 的 
Python 应 用 ; 第 17 章 介绍 优 矿 平台 的 量化 金融 投资 的 基本 知识 ; 第 18 章 介 绍 Alpha 对 冲 
模型 的 Python 应 用 ; 第 19 章 介 绍 Signal 框架 下 的 Alpha 量化 金融 投资 策略 的 Python 应 
用 ; 第 20 章 介 绍 量化 金融 投资 组 合 优 化 的 Python 应 用 。 


V. 量化 全 融 投 资 及 其 Python 应 用 


本 书 主要 面向 金融 学 ,投资 学 ,金融 工程 .保险 学 、 经 济 学 、 财 务 管理 统计 学 、 数 量 经 济 
学 .管理 科学 与 工程 ,金融 数学 等 专业 的 高 年 级 本 科 生 研究 生 和 金融 专业 硕士 研究 生 。 本 
书 是 教育 部 社会 科学 基金 项 目 2018 阶段 性 成 果 。 

本 书 的 出 版 得 到 了 清华 大 学 出 版 社 的 支持 ,帮助 。 

限于 时 间 和 水 平 , 书 中 难免 有 不 足 之 处 , 敬 请 读者 提出 宝贵 意见 。 


作 者 
2018 年 7 月 于 广州 


第 1 


章 


上 
00 M O» €^ ^ 0t t$ — 


量化 金融 投资 平台 与 Python TERRE eem 


国内 外 量化 金融 投资 平台 概述 eene 
优 矿 平台 界面 eene enne nennen enne 

优 矿 平台 提供 的 服务 eene 
[LU E41 Notebook J)fi£./ em mI 
优 矿 平台 支持 的 Python 程序 包 
Python 的 下 载 … 
Python 的 安装 … . "A .. 
dou 的 启动 和 退出 … eee] HH B 


zz 
章 


1 
2 
3 
4 
5 


omo omm 


练习 题 - 


z 
章 


1 
2 
3 
4 
5 
6 
ri 
8 


Y 


Python 的 两 个 基本 操作 与 编程 基础 …… 10 


NumPy 在 量化 金融 投资 分 析 中 的 应 用 ee m 19 


Python 的 两 个 基本 操作 0 
Python 容器 … 1 
Python 函数 = 5 
Python ATE SS UBXR HH l5 
7 
8 


iiid 类 与 对 象 . 15———————————————— 


NumPy 概述 eH 
NumPy 对 象 初步 : 数组 … 
创建 数组 …… sss. 
BOIURUB PERZ SE 
缺失 人 nm ee HH] 2B 
一 元 线性 回归 分 析 的 ini O————ÁÜ/11 


P 
人 量化 金融 投资 及 其 Python 应 用 


第 4 章 SciPy 在 量化 金融 投资 分 析 中 的 应 用 31 


4.2 统计 知识 …… 
Laa TARRE e aS 
4. 3.2 有 约束 优化 问题 - ———— S" 
4.3.3 利用 CVXOPT 求 解 二 次 规划 问题 ee mmm eHeHIHOÁAQ 
DET …… 人 


第 5 章 pandas 的 基本 数据 结构 pp 45 


5.2 pandas 数据 结构 : Series cmm 45 
5.2.2 Series 数据 的 访问 4 

5.3 pandas 数据 结构 : DataFrame pp 48 
5.3.1 创建 DataFrame ee 4B 
5.3.2 DataFrame WERI] «MIHI 50 


第 6 章 pandas 在 金融 数据 处 理 中 的 应 用 eee e ee e e e He 54 


6.1 创建 数据 结构 的 方式 和 54 
6.3.2 处 理 缺 失 数据 ee 
6.3.3 数据 操作 … 

6.4 数据 可 视 化 …… 


第 7 章 金融 时 间 序 列 分 析 及 其 Python ERE e mm 64 


7.1 时 间 序 列 分 析 的 基础 知识 … 4 
7.1.1 时 间 序 列 的 概念 及 其 特征 - —————————— Á 
31.9 平稳 性 . 4 
7.1.3. 相关 系数 和 自 相关 函数 - 
7.1.4. 白 噪 声 序列 和 线性 时 间 序 列 - 

7.2 自 回归 模型 … 

7.2.1 AR(z) 模 型 的 特征 根 及 平稳 性 检验 eR RII 69 
3.2.2 AR(p) 模 型 的 定 阶 ss TI 


7.3 


7.4 


7.5 


7.6 


TA 


7.2.4. 拟 合 优 度 及 预测 eee 74 
移动 平均 模型 及 预测 ………… 
7.3.1 MA(g) 模 型 的 性 质 
7.3.2 MA(g) 模 型 的 阶 次 判定 
7.3.3 建 模 和 预测 6 
E LEES 2E EE BERE M enne T 
7.4.1 确定 ARMACp.qUBERIBEUK tmm T8 
7.4.2. ARMA 模型 的 建立 及 预测 eee mH 79 
ARIMA 模型 及 预测 … 
7.5.1 单位 根 检验 ………… 
7.5.2 ARIMA(p.d,g) 模 型 阶 次 确定 - 
7.5.8 ARIMA 模型 的 建立 及 预测 RN B2 
PEPEE A EA ARCH 及 预测 «eee 85 
7.6.2 O i tad e —— 7 
7.6.3 ARCH 模型 的 建立 及 预测 .………: 6 
广义 自 回归 条 件 异 方差 模型 GARCH 及 波动 率 预测 ee 93 
7.7.1 GARCH 模型 的 建立 ibd 


P 


章 


8.1 
8.2 
8.3 


练习 题 … 


P 


章 


9.1 
9.2 
9.3 
9.4 


练习 题 … 


中 国 股市 分 析 及 其 Python Rz eee men 98 
基于 风险 价值 的 蒙特 卡 洛 方法 


机 器 学 习 神 经 网 络 算法 及 其 Python ERI eee e e e Rm 111 


BP PD EOS ED PIDE 111 
BP MERAJ 7 12 RE 
BP Nr EL MR Python 应 用 eee€eMHMMHHÜeÜROIIA 


第 10 章 机 器 学 习 支 持 向 量 机 及 其 Python 应 用 -118 


10. 
.2 机 器 学 习 支 持 向 量 机 的 应 用 eeeeee€—MMMMHHHMeMeees 119 


10 


» 
v £ ] 
Qoo 量化 金融 投资 及 其 Python 应 用 


第 11 章 欧式 期 权 定价 的 Python EA ene 122 


11.1 期 权 定价 公式 的 Python 函数 ——————————— 
11.2 使 用 NumPy 加 速 批量 计算 ……… 

11.2.1 使 用 循环 的 方式 ………… 

11.2.2 使 用 NumPy 向 量 计算 24 
11.3 MA SciPy BUS GTSE tmm 126 
11.4 计算 隐 含 波动 率 remm mee 128 


第 12 章 函数 插值 的 Python RZ joe 130 


12.1 如 何 使 用 SciPy 做 函数 插值 . —————— 130 
12.2 函数 插值 应 用 一 一 期 权 波 动 率 曲面 构造 pp 133 


第 13 章 ， 期 权 定价 二 叉 树 算法 的 Python REI HH 136 


13.1 二 又 树 算法 的 Python 撒 述 1136 
13.2 用 面向 对 象 的 方法 实现 二 叉 树 算法 pp 139 
13.2.1 二 叉 树 框架 x ^n 

13.2.2 二 叉 树 类 型 描述 - 
13.9.3 偿付 函数 s bisss 
13.3 EE 一 又 树 算 法 . —€——————— Án 


FUE 48 07; TR CE AY AH Python RE lee e n e m 145 


14.1 热传导 方程 aee oa. 
14.2. 显 式 差分 格式 …… 
"TP fet eee] 15] 


第 15 章 偏 微分 方程 隐 式 差分 法 的 Python 应 用 152 


15.1.1 JEER == 

15.1.2 隐 式 格式 求解 … 
15.2 模块 组 装 - e 
15.3 NH Ry RN 


Æ  Black-Scholes-Merton 偏 微分 方程 隐 式 差分 法 的 Python 应 用 e 160 


16.1 Black-Scholes-Merton 偏 微分 方差 初 边 值 问题 的 提出 e 160 
16.2 偏 微 分 方程 隐 式 差分 法 …………… RES " 
16.3 Python 应 用 实现 … 


章 ， 优 矿 平台 的 量化 金融 投资 初步 ee 165 


NJ MEER AM M orbe E E ena a nau MR 
量化 金融 投资 及 其 策略 - 

设置 初始 数据 een 
选取 股票 池 pp 167 
17. dL E > ———— 28 03:1 


QU ux quo E 
-10 c t0 t 


3: Alpha 对 冲模 型 的 Python 应 用 eme 170 


18.2 优 矿 平台 的 “三 剑客 ”， ü 


章 Signal 框架 下 的 Alpha 量化 金融 投资 策略 的 Python 应 用 eee 175 


19.1 为 什么 选择 Alpha 对 冲模 型 ， m i 
19.2 在 优 矿 平台 上 构建 Alpha 对 冲模 型 的 神器 一 一 Signal 框架 

19.3 典型 公募 基金 团队 如 何 构建 自己 的 Alpha 对 冲模 型 - 3i 
19.4 如 何在 优 矿 平台 上 一 人 超越 一 个 公募 基金 团队 - NR AA 

章 ”量化 金融 投资 组 合 优 化 的 Python 应 用 ee 182 


20.1 马 科 维 获 投资 组 合 优化 基本 理论 eene emen en 
20.2 投资 组 合 优化 的 Python 应 用 实例 
20.3 投资 组 合 优化 实际 数据 的 Python 应 用 

练习 题 ， on 


J 量化 金融 投资 平台 与 
e 第 1 章 。 Python 工作 环境 


@ o-o-o 


1.1 国内 外 量化 金融 投资 平台 概述 


国外 比较 著名 的 量化 金融 投资 平台 有 Quantopian(https://www. quantopian. com/) , 
Quantpedia(http: //www. quantpedia. com/) 等 。 如 果 是 普通 用 户 , 不 懂 编 程 ,建议 使 用 国 
内 的 果 仁 网 (http://www. guorn. com/)。 目 前 ,国内 专业 性 强 、 需 要 用 户 懂 编 程 的 量化 金 
融 投 资 平 台 主 要 有 优 矿 (https://ugqer.io/home/) 、 聚 宽 (http://www. joinquant. com/) ,2K 
f£ (http://www. ricequant. com/) 和 量化 京东 平台 (http://quant. jd. com/) ,2K f£ fil hit fL si 
东平 台 都 支持 Python 3 和 Java, 而 优 矿 和 聚 宽 使 用 的 都 是 Python 2. Python 的 两 个 版 本 
功能 大 致 类 似 ,Python 3 现在 基本 上 已 经 支持 量化 金融 投资 工作 能 用 到 的 各 种 程序 包 , 并 
且 在 中 文 支持 ` 数 据 类 型 以 及 很 多 其 他 细节 上 有 所 优化 ,这 也 是 长 期 发 展 的 方向 。 目 前 国内 
量化 金融 投资 平台 方兴未艾 ,都 采用 了 Quantopian 的 模式 , 先 从 工具 下 手 , 推 广 到 社区 ,最 
后 采用 众 筹 策略 。 优 矿 和 Ricequant 是 走 在 前 面 的 ,也 是 相对 完善 的 两 个 平台 。 国 内 的 
4 个 量化 金融 投资 平台 比较 类 似 , 本 书 以 优 矿 平台 为 例 来 介绍 。 


1.2. 优 矿 平台 界面 


优 矿 量化 金融 投资 平台 (以 下 简称 优 矿 平台 ) 界 面 如 图 1-1 所 示 。 


图 1-1 优 矿 量化 金融 投资 平台 界面 


1.3. [hU V CHE BERI LAS 


优 矿 平 台 为 用 户 提供 如 下 服务 。 

1. 高 质量 大 数据 免费 使 用 (研究 数据 ) 

优 矿 平台 免费 提供 沪 深 股票 .港股 、 基 金 . 期 货 、 债 券 . 期 权 、 指 数 、 板 块 、 宏 观 等 海量 数 
据 。 具 体 参 见 https://uqer. io/data/browse/0/?page 一 1。 

2. 专业 、 高 效 的 量化 研究 工具 (“开始 研究 ”模块 ) 

利用 优 矿 平台 可 以 快捷 获取 海量 数据 ,使 用 其 定制 的 Python 量化 分 析 环 境 。 优 矿 平 
台 采 用 虚拟 机 技术 ,安全 ,稳定 、 强 大。 具体 参见 https://uqer. io/labs/。 

注意 : 本 书 的 大 部 分 Python 代码 都 是 在 此 环境 中 调试 通过 的 。 

3. 策略 回 测 

优 矿 平台 提供 高 效 、 专 业 的 quartz 交易 回 测 框架 ,使 用 户 可 以 专注 于 描述 交易 算法 多 
辑 ,而 不 必 关 心底 层 的 实现 细节 ,同时 快速 获得 策略 表现 评估 。 目 前 支持 股票 . 场 内 ETF/ 
LOF 基金 的 分 钟 线 和 日 线 回 测 。 具 体 参见 https://uqer. io/labs/。 

4. 模拟 交易 

将 “开始 研究 ?模块 中 的 策略 一 键 发 布 ,进行 实 盘 模拟 。 目 前 支持 股票 . 场 内 ETF/LOF 
基金 的 日 线 和 分 钟 线 模拟 交易 。 具 体 参 见 https://uqer. io/trade/strategies/ o 

5. 实 盘 大 赛 

优 矿 平台 举办 了 500 万 实 盘 量化 大 赛 ,参与 大 赛 就 有 资格 获得 百 万 实 盘 奖励 ,收益 全 归 
参赛 者 ,亏损 优 矿 担 。 具 体 参 见 https://uqer. io/contest/home/。 

6. 量化 社区 

优 矿 平台 聚集 了 一 批量 化 金融 投资 从 业者 和 爱好 者 ,他 们 在 社区 发 布 各 种 想法 、 算 法 、 
策略 ,共享 思维 碰撞 带 来 的 灵感 。 具 体 参 见 https://uqer. io/community/list。 


1.4 ÈP Ff Notebook 功能 


在 优 矿 平台 中 进行 的 所 有 金融 研究 都 可 在 Notebook 中 实现 。Notebook 文件 采用 输 
入 与 输出 混 排 的 交互 方式 ,让 研究 过 程 所 见 即 所 得 。 用 户 可 以 在 “开始 研究 ”中 新 建 
Notebook, 如 图 1-2 所 示 。 
可 以 在 该 单元 的 左上 方 将 单元 切换 为 不 同 的 模式 ,如 图 1-3 所 示 。 
在 不 同 的 单元 模式 间 切 换 , 可 以 在 Notebook 中 实现 各 种 丰富 的 研究 。 
。 股票 /基金 策略 模式 与 期 货 策略 模式 : 内 嵌 了 策略 回 测 框 架 ,可 以 用 程序 化 的 方法 
定义 每 个 交易 日 在 某 种 条 件 下 买 入 、 卖 出 一 定数 量 的 股票 ,并 进行 策略 表现 评估 。 
。 文 档 模 式 : 可 以 在 这 个 模式 下 编写 文档 。 
。 代码 模式 : 可 以 在 这 个 模式 下 进行 各 种 数据 的 研究 分 析 、 金 融 建 模 、 定 价 分 析 等 
操作 。 
将 单元 切换 为 代码 模式 后 ,可 以 在 这 个 模式 下 编写 任何 形式 的 Python 代码 ,并 且 调 用 
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图 1-2 新 建 Notebook 


xm- â - [长 
ta 

maium 

nam 

xm 


图 1-3 切换 单元 模式 


优 矿 平台 提供 的 数据 和 定制 函数 库 。 在 代码 模式 中 输入 代码 后 , 按 Ctrl 十 Enter 组 合 键 运 
行 即 可 。 


1.5 _ 优 矿 平台 支持 的 Python 程序 包 


优 矿 平台 支持 的 Python 程序 包 如 下 。 

1. DataAPI 程序 包 

优 矿 平台 提供 的 所 有 数据 都 可 以 通过 这 个 模块 获得 。 它 是 优 矿 平台 内 置 函数 库 , 无 须 
导入 (import) 即 可 使 用 。 可 查看 https://uqer. io/data/browse/0/?page—1 了解 详细 信息 。 

2. quartz 程序 包 

quartz 程序 包 是 优 矿 平台 的 回 测 框架 。 它 是 优 矿 平台 内 置 函数 库 ,无 须 导 入 即 可 使 用 。 
可 查看 “https://uqer. io/help/fagApi/ & 5&W& API 文 档 " 了 解 详细 信息 。 

3. CAL 程序 包 

CAL 是 优 矿 平台 为 固定 收益 及 衍生 品 建 模 定制 的 金融 模块 。 可 查看 https://uqer. io/ 
help/faqCAL 了 解 详细 信息 。 

4. NumPy 程序 包 


NumPy 是 Python 的 数值 计算 扩展 程序 包 , 能 够 高 效 地 存储 和 处 理 大 型 矩阵 。 可 查看 
NumPy 官网 的 帮助 文档 (http://www. numpy. org/) 。 
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5. SciPy 程序 包 

SciPy 是 基于 NumPy 的 更 为 丰富 和 高 级 的 功能 扩展 程序 包 , 在 统计 、 优 化、 插值 .数值 
积分 、 常 微分 方程 求解 器 等 方面 提供 了 大 量 的 可 用 函数 ,基本 覆盖 了 基础 科学 计算 相关 的 问 
题 。 可 查看 SciPy 官网 的 帮助 文档 (http://www. scipy. org/)。 

6. pandas 程序 包 

pandas 是 基于 NumPy 的 数据 分 析 工 具 ,主要 用 于 解决 数据 分 析 任 务 。pandas 提供 了 
大 量 能 帮助 用 户 快速 便捷 地 处 理 数据 的 函数 和 方法 ,提供 了 高 效 操作 大 型 数据 集 所 需 的 工 
具 。 可 查看 pandas 官网 的 帮助 文档 Chttp://pandas. pydata. org/pandas-docs/stable/ 
10min. htmD 。 

7. matplotlib,seaborn 程序 包 

matplotlib 是 Python 的 图 形 框架 。 可 查看 matplotlib 官网 的 帮助 文档 Chttp:// 
matplotlib. org/1. 3. 1/contents. html) 。 

seaborn 模块 自 带 许多 定制 主题 和 高 级 接口 ,用 于 控制 matplotlib 图 表 的 外 观 。 可 查看 
Seaborn 官网 的 帮助 文档 (http://seaborn. pydata. org/) 。 

8. sklearn 程序 包 

sklearn 是 Python 的 机 器 学 习 和 数据 挖掘 模块 ,可 以 用 于 模式 识别 。 可 查看 sklearn È 
网 的 帮助 文档 (http://scikit-learn. org/stable/)。 

9. SQLite 程序 包 

SQLite 是 一 个 软件 库 , 实 现 了 自给 自足 的 、 无 服务 器 的 、 零 配置 的 ,事务 性 的 SQL 数据 
库 引 擎 。SQLite 是 在 世界 上 部 署 最 广泛 的 SQL 数据 库 引 擎 。 可 以 在 “开始 研究 ”的 
Notebook 中 创建 SQLite 数据 库 ,并 且 存储 在 Data 目录 中 。 

关于 SQLite 函数 库 的 具体 使 用 语法 请 参考 SQLite 的 官方 帮助 文档 (http://www. 
tutorialspoint. com/sqlite/sqlite_python. htm) 。 

10. 其 他 程序 包 

优 矿 平台 还 提供 了 array,cmath,collections,copy,datetime,dateutil,functools,heapq， 


itertools. json, math. operator. random. re. string. xml. __ future __, mpl _ toolkits, 
statsmodels. datetime, talib, time. statsmodels. cvxopt. MLPlatformClient. jieba, pymc. 
pybrain, tables, gensim. fractions. sets. arch. xlrd. xlwt. io. pickle, cPickle. StringIO. 


networkx,sympy, pywt,hmmlearn, 这 里 不 一 一 介绍 。 


1.6 Python 的 下 载 


输入 网 址 https: //mirrors. tuna. tsinghua. edu. cn/help/anaconda/ , 即 可 下 载 Anaconda, © 
是 Python 发 行 版 的 套装 软件 ,支持 Linux, MacOS, Windows 等 操作 系统 ,包含 了 众多 流行 
的 科学 计算 .数据 分 析 的 Python 包 。 其 中 包括 pandas、NumPy、SciPy、statsmodels、 
matplotlib 等 一 系列 的 程序 包 以 及 IPython 交互 环境 。Anaconda 安装 包 下 载 界 面 如 图 1-4 
所 示 。 
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LIPPE ILIPL TIL. 2 


re mk pem po a 
^ Anaconda 镜像 使 用 帮助 


Anaconda 是 个 用 于 科学 计算 的 Python BETIK , ES Linux, Mac, Windows. 包 全 了 众多 流行 的 科学 计算 、 归 委 分 析 的 Python f. 


arenino TUNA FE 人 了 Anaconda 全 本 的 本 全 ,运行 UI 下 二 


ananan 


onde config -ad chanels "httgss//nirrocs. tuna. tainghwa eda. cn msconda[ proe 
onda config set shoe channel urls yes 


STIR Anaconda Python BGA, 


E corda instali napy S- FE 


图 1-4 Anaconda 安装 包 下 载 界面 


单 击 图 1-4 中 的 https://mirrors. tuna. tsinghua. edu. cn/anaconda/archive/ ,出 现 如 


图 1-5 所 示 的 界面 。 


4€) DO Mosi miror ura tinghia dut oracord 
DOR ILIEI Y 


Index of /anaconda/archive/ 


m oca *6024À52505- 


om 
234119145 
Anaconda; n 08-Sep-2013 22:10. 294250542 


图 1-5 不 同 版 本 的 Anaconda 安装 包 列 表 


在 图 1-5 中 ,选择 Anaconda2-4. 4. 1- Windows-x86. exe, 即 可 得 到 Python 金融 经 济 数 
据 分 析 套 装 软件 工具 。 也 可 以 选择 最 新 的 Anaconda3-4. 1. 1-Windows-x86. exe(32 位 ) 或 
Anaconda3-4. 1. 1-Windows-x86_64. exe(64 位 ) 。 请 读者 注意 ,本 书 中 的 金融 经 济 数据 分 析 
工具 需要 下 载 Anaconda2-4. 4. 1-Windows-x86. exe(32 位 )。 下 载 界面 如 图 1-6 所 示 。 

Anaconda2-4. 4. 1-Windows-x86. exe(32 位 ) 安 装 包 中 提供 了 应 用 Python 进行 金融 经 
济 数据 分 析 所 需 的 丰富 资源 ,包括 pandas、NumPy、SciPy、statsmodels、matplotlib 等 一 系列 
的 程序 包 以 及 IPython 交互 环境 。 要 了 解 Python 的 其 他 程序 包 , 可 到 https://anaconda. org 


网 站 上 搜索 。 
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Anaconda2-2 


. 0-MacOSX-x86 64. pkg 
. 0-MacOSX-x86 64. sh 

. 0-Windows-x86. exe 
Anaconda2-2. 4. 0-Windows-x86 64. exe 
Anaconda2-2. 4. 1-Linux-x86. sh 


Anaconda2-2 
Anaconda2-2 


Anaconda2-2. 4. 1-MacOSX-x86 64. pkg 
Anaconda2-2. 4. 1-MacO0SX-x86 64. sh 
Anaconda2-2. 4. 1-Windows-x86. exe 
Anaconda2-2. 4. 1-Windows-x86 64. exe 


Anaconda2—2. 5. 0-Linux-x86. sh 
.Ü-Linux-x86 64. sh 
Ü0-MacOSX-x86 64. pkg 
0-MacOSX-x86 64. sh 
0-Windows-x86. exe 
0-Windows-x86 64. exe 
. 0-Linux-x86. sh 
.0-Linux-x86 64. sh 

. 0-MacOSX-x86 64. pkg 
. 0-MacOSX-x86 64. sh 

. 0-Windows-x86. exe 

. 0-Windows-x86 64. exe 


4. 
ES 
4 
4 
4. 
Anaconda2-2. 4. 1-Linux-x86 64. sh 
4 
4. 
4. 
4, 
5 
5 


Anaconda2-2. 


Anaconda2-2. 
Anaconda2-2 
Anaconda2-4. 
Anaconda2-4. 
Anaconda2-4. 
Anaconda2-4 
Anaconda2-4. 
Anaconda2-4 


Anaconda2-4. 
Anaconda2-4. 
Anaconda2-4. 
Anaconda2-4. 
Anaconda2-4 
Anaconda2-4 


Anaconda2-4. 


. Ü-Linux-x86. sh 
.Ü-Linux-x86 64. sh 
.Ü-MacOSX-x86 64. pkg 
.Ü0-MacOSX-x86 64. sh 

. 0-Windows-x86. exe 
.Ü-Windows-x86 64. exe 
. l-Linux-x86. sh 


Anaconda2-4. 1. 1-Linux-x86 64. sh 
Anaconda2-4. 1. 1-MacOSX-x86 64. pkg 
Anaconda2-4. 1. 1-MacOSX-x86 64. sh 


Anaconda2-4. 


Anaconda2-4. 


. l-Windows-x86. exe 
.l-Windows-x86 64. exe 


02-Nov-2015 
02-Nov-2015 
02-Nov-2015 
02-Nov-2015 
08-Dec-2015 
08-Dec-2015 
08-Dec-2015 
08-Dec-2015 
08-Dec-2015 
08-Dec-2015 
03-Feb-2016 
03-Feb-2016 
03-Feb-2016 
03-Feb-2016 
03-Feb-2016 
03-Feb-2016 
29-Mar-2016 
29-Mar-2016 
29-Mar-2016 
29-Mar-2016 
29-Mar-2016 
29-Mar-2016 
28-Jun-2016 
28-Jun-2016 
28-Jun-2016 
28-Jun-2016 
28-Jun-2016 
28-Jun-2016 
08-Jul-2016 
08-Jul-2016 
08-Jul-2016 
08-Jul-2016 
08-Jul-2016 
08-Jul-2016 


图 1-6 下 载 安装 包 选 择 界 面 
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22: 
22: 
22: 
22: 


281613909 
251172115 
331056800 
406819096 
260583576 
211821102 
251181337 
222326344 
301790720 
371393960 
346405513 
409842279 
385762781 
331485310 
310590880 
365581384 
348392297 
411562823 
355703551 
304288480 
294659856 
350807856 
340190685 
418188731 
360909420 
309460309 
298958864 
356677104 
340385173 
419038579 
361721748 
310125837 
299852168 
357765440 


双击 下 载 的 Anaconda2-4. 1. 1-Windows-x86. exe, 即 可 进入 如 图 1-7 所 示 的 界面 。 


CONTINUUM 


Welcome to the Anaconda? 4.1.1 
(32-bit) Setup Wizard 


This wizard wil guide you through the installation of 


Anaconda? 4.1.1 (32-bit). 


Itis recommended that you dose all other applications. 
before starting Setup. This will make it possible to update. 
relevant system files without having to reboot your 


computer. 
Chick Next to continue. 


图 1-7 Anaconda2. 4. 1. 1(32 位 ) 安 装 界面 
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Agreement 


QD) ANACONDA piense reven the kense tems before rotalng Anaconda2 4.1.1 


Press Page Down to see the rest of the agreement. 


'opyright 2016, Continuum Analytics, Inc. 
rights reserved under the 3-dause BSD License: 
and use in source and binary forms, with or without modification, are 
provided that the folowing conditions are met: 
v 


1f you accept the terms of the agreement, dick I Agree to continue. You must accept the 
agreement to install Anaconda? 4.1.1 (32bit). 


E EE HIN 


1-8 软件 许可 协议 
在 图 1-8 中 单 击 I Agree 按钮 ,进入 如 图 1-9 所 示 的 界面 。 


Select Installation Type 


©) ANACONDA please select the type of instalation you would ike to perform for 
Anaconda? 4.1.1 (32bit). 


© Dist Me (recommended) 
OAI Users (requres admin privieges) 


图 1-9 选择 安装 类 型 
单 击 图 1-9 中 的 Next 按钮 ,进入 如 图 1-10 所 示 的 界面 。 
Oo ANACONDA Choose the folder in which to install Anaconda? 4. 1. 1 (32-bit). 


Setup wil install Anaconda2 4.1.1 (32-bit) in the folowing folder. To installin a different 
folder, cick Browse and select another folder. Cick Next to continue. 


图 1-10 选择 安装 位 置 
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单 击 图 1-10 中 的 Next 按钮 , 即 可 完成 Python 套装 软件 的 安装 ,安装 完成 后 的 
Windows 桌面 如 图 1-11 所 示 。 


zhushunquan $ 


回 
© 


图 1-11 安装 完成 后 的 Windows 桌面 


1.8 Python 的 启动 和 退出 


1. Python 的 启动 

单 击 图 1-11 中 Spyder 图 标 , 即 可 启动 Python 的 交互 式 用 户 界面 ,如 图 1-12 所 示 。 
Python 是 按照 问答 的 方式 运行 的 , 即 在 命令 提示 符 之 二 二 后 输入 命令 并 回 车 ,Python 就 完 
成 相应 的 操作 。 


Permissions End ofines: CMF Encoding UII ws Gps H 


Æ 1-12 Python 的 交互 式 用 户 界面 
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在 研究 中 经 常 使 用 的 是 如 图 1-13 所 示 的 IPython 控制 台 界 面 。 


Be gdt Sech Sourpe Bun Debug Corecles Jols View Heip 


Ouk EDS > 加 可 办 访 hareu PA t 
[LT 


Erde] os cede 


Pemsons M Ecke (MF Encodng Wf-8-ONSHD — ues — cp a miu 


图 1-13 IPython 控制 台 界面 


2. Python 的 退出 
在 图 1-12 中 的 命令 提示 符 二 之 二 后 按 Ctrl 十 Q 键 或 选择 Python 交互 式 用 户 界面 中 的 
File Quit 菜单 命令 , 即 可 退出 Python, 


练习 题 


1. 在 优 矿 量化 金融 投资 平台 注册 ,并 熟悉 基本 环境 。 
2. 在 https://mirrors. tuna. tsinghua. edu. cn/help/anaconda/ 下 载 最 新 版 本 的 Python 
工具 并 安装 到 指定 的 目录 。 启 动 Python 软件 ,然后 退出 。 
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“ Python 的 两 个 基本 操作 
o 第 2 齐 。 与 编程 基础 


@ o-o-o 


2.1 Python 的 两 个 基本 操作 


本 节 介 绍 Python 的 两 个 基本 操作 。 
.四 则 运算 
可 以 在 Python 中 使 用 十 .一 \.* /直接 进行 四 则 运算 。 
1*3*3 
10 
2. 导入 模块 
使 用 import 命令 可 以 导入 模块 ,随后 就 可 以 使 用 这 个 模块 下 面 的 函数 了 。 例 如 ,要 导 
入 math 模块 ,然后 使 用 math 模块 下 面 的 sqrt 函数 , 则 执行 以 下 命令 ， 
import math 


math. sqrt(9) 
3.0 


注意 : 上 面 的 语句 直接 输入 sqrt(9) 是 会 报错 的 ,前 面 要 带 “math. "前 级 。 那 么 有 什 
么 办 法 可 以 不 用 每 次 都 带 前 缓 呢 ? 解决 办 法 是 用 “from 模块 import 函数 ”命令 先导 入 
dE. 

from math import sqrt 

sqrt(9) 

3.0 

这 样 每 次 使 用 sqrt 函数 的 时 候 就 不 用 再 加 “math. ”前 级 了 。 然 而 math 模块 下 面 有 很 
多 函数 ,是 否 可 以 写 一 个 语句 使 math 下 面 的 所 有 郴 数 都 可 以 直接 使 用 ” 下 面 的 办 法 可 以 

-次 导入 模块 中 的 所 有 函数 ， 

from math import * 

print sqrt(9) 

print floor(32.9) 


3.0 
32.0 


2.2 Python 容器 


1. 什么 是 容器 


Python 中 有 一 种 名 为 容器 的 数据 结构 ,顾名思义 ,容器 就 是 装 数据 的 器 具 , 它 主要 包括 
序列 和 词典 ,其 中 序列 又 主要 包括 列表 、 元 组 .字符 串 等 。 

列表 的 基本 形式 示例 : [1,3,6,10] 或 者 ['yes', 'no','OK']。 

元 组 的 基本 形式 示例 : (1,3,6,10) 或 者 ('yes','no','OK')。 

字符 串 的 基本 形式 示例 : 'hello '。 

以 上 几 种 属于 序列 ,序列 中 的 每 一 个 元 素 都 被 分 配 一 个 序号 , 即 元 素 的 位 置 , 也 称 为 索 
引 。 第 一 个 索引 , 即 第 一 个 元 素 的 位 置 是 0, 第 二 个 是 1, 依 此 类 推 。 列 表 和 元 组 的 区 别 主要 
在 于 ,列表 可 以 修改 ,而 元 组 不 能 (注意 列表 用 方 括 号 “[]” 而 元 组 用 圆 括 号 “(Oy)”)。 利 用 序列 
的 这 个 特点 ,就 可 以 通过 索引 来 访问 序列 中 的 某 个 或 某 几 个 元 素 , 例 如 : 

a=[1,3,6,10] 

a[2] 

0ut[2]:6 

bz (1,3,6,10) 

b[2] 

6 

invalid syntax (line 2) 

c7 'hello' 

c[0:3] 

Out[2]: 'hel' 


与 序列 对 应 的 字典 则 不 一 样 , 它 是 一 个 无 序 的 容器 , 它 的 基本 形式 示例 : d= (7: 'seven'. 
8:'eight',9:'nine'}。 这 是 一 个 “ 键 - 值 "映射 的 结构 ,因此 字典 不 能 通过 索引 访问 其 中 的 元 
素 , 而 要 通过 键 访问 其 中 的 元 素 : 

d= {7:'seven',8:'eight',9:'nine'} 


d[8] 
Out[2]: 'eight" 


2. 序列 的 通用 操作 

列表 、 元 组 .字符 串 等 有 一 些 共同 的 操作 。 

1) 索引 

序列 的 最 后 一 个 元 素 的 索引 也 可 以 用 一 1, 倒 数 第 二 个 元 素 可 以 用 一 2, 依 此 类 推 。 
例如 : 


a= [1,3,6,10] 
print a[3] 
print a[ - 1] 
10 

10 
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2) 分 片 
分 片 操作 用 来 访问 一 定 范围 内 的 元 素 , 它 的 格式 为 


序列 名 [开始 索引 :结束 索引 : 步 长 ] 


表示 在 从 开始 索引 所 指 的 元 素 到 结束 索引 所 指 的 元 素 之 间 , 以 指定 的 步 长 访问 该 序列 中 的 
元 素 。 步 长 可 以 省 略 , 默 认 步 长 为 1。 

c= 'hello' 

c[0:3] 

Out[2]: 'hel' 

这 就 像 把 一 个 序列 分 成 几 片 ,所 以 叫 作 分 片 。 

3) 序列 相 加 

序列 相 加 即 两 个 序列 合并 在 一 起 :相同 类 型 的 序列 才能 相 加 。 例 如 : 

[2,2,3] + [4,5,6] 

Out[2]:[1, 2, 3, 4, 5, 6] 

'hello, ' + 'world!" 

Out[3]: 'hello, world! ' 

4) 成 员 资格 

为 了 检查 一 个 值 是 否 在 序列 中 ,可 以 用 in 运算 符 。 例 如 : 


a= 'hello' 
print 'o'ina 
True 

print 't'ina 
False 


3. 列表 操作 

以 上 是 序列 共有 的 操作 ,列表 还 有 一 些 自 己 独 有 的 操作 。 
1) list 函数 

可 以 通过 list 函数 把 一 个 序列 转换 成 一 个 列表 : 
list('hello') 

Out[6]: ['h', 'e', '1', '1', 'o'] 

2) 元 素 删除 .赋值 

元 素 删除 命令 格式 : del 列表 名 [索引 号 ]。 

元 素 赋值 命令 格式 : 列表 名 [索引 号 ] 一 值 。 

例如 : 


a 
Out[8]: 'hello' 

b-list(a) 

b 

Out[ 10]: ['b', ey '15;. 715). *o'] 
del b[2] 

b 

Out[12]: ['h', 'e', '1', 'o'] 
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Out[14]: ['h', 'e', 't', 'o'] 


3) 分 片 赋值 
命令 格式 为 


列表 名 [开始 索引 号 :结束 索引 号 ] = list( 值 ) 


分 片 赋值 为 列表 的 某 一 范围 内 的 元 素 赋值 , 即 为 从 开始 索引 号 到 结束 索引 号 区 间 内 的 
几 个 元 素 赋值 。 例 如 ,把 hello 变 成 heyyo: 

b= list('hello') 

b 

Out[16]: ['h', 'e', '1', "1', 'o'] 

b[2:4] = list('yy') 

b 

Out[18]: ["h', 'e', 'y', 'y', 'o'] 

注意 : 虽然 1] 处 于 hello 这 个 单词 的 第 2,3 号 索引 的 位 置 , 但 赋值 时 是 用 b[2:4] 而 不 
是 b[2:3]( 即 “ 含 头 不 含 尾 ”); 另外 ,要 注意 list 后 面 用 圆 括号 。 

4) 列表 方法 

上 面 介绍 的 list 是 一 个 函数 。 函 数 在 很 多 语言 中 都 有 ,例如 Excel 里 面 的 if 函数 、 
vlookup 函数 ,SQL 里 面 的 count 函数 ,以 及 各 种 语言 中 都 有 的 sqrt 函数 ,等 等 ,Python 中 
也 有 很 多 函数 。 

Python 中 的 方法 是 与 某 些 对 象 有 紧密 联系 的 函数 ,所 以 列表 方法 也 就 是 属于 列表 的 函 
数 , 它 可 以 对 列表 执行 一 些 比较 深入 的 操作 。 方 法 的 调用 格式 如 下 : 


对 象 .方法 (参数 ) 

列表 方法 的 调用 格式 如 下 : 

列表 .方法 (参数 ) 

下 面 介 绍 常用 的 列表 方法 ,以 a==['h',"e','1','1','0'] 为 例 来 说 明 。 
a 

Out[20]: ['h', 'e', '1', '1', 'o'] 

在 列表 a 的 索引 2 位 置 插入 一 个 元 素 t: 
a. insert(2, 't') 

a 

00t[22]: [ "hi; *e*, 9e; 1t n tot] 

在 列表 的 最 后 添加 元 素 q: 

a.append( 'q') 


a 
Out[24]: ['h', 'e', 't', '1', "1', 'o', 'q'] 
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Out[14]: ['h', 'e', 't', 'o'] 


3) 分 片 赋值 
命令 格式 为 


列表 名 [开始 索引 号 :结束 索引 号 ] = list( 值 ) 


分 片 赋值 为 列表 的 某 一 范围 内 的 元 素 赋值 , 即 为 从 开始 索引 号 到 结束 索引 号 区 间 内 的 
几 个 元 素 赋值 。 例 如 ,把 hello 变 成 heyyo: 

b= list('hello') 

b 

Out[16]: ['h', 'e', '1', "1', 'o'] 

b[2:4] = list('yy') 

b 

Out[18]: ["h', 'e', 'y', 'y', 'o'] 

注意 : 虽然 1] 处 于 hello 这 个 单词 的 第 2,3 号 索引 的 位 置 , 但 赋值 时 是 用 b[2:4] 而 不 
是 b[2:3]( 即 “ 含 头 不 含 尾 ”); 另外 ,要 注意 list 后 面 用 圆 括号 。 

4) 列表 方法 

上 面 介绍 的 list 是 一 个 函数 。 函 数 在 很 多 语言 中 都 有 ,例如 Excel 里 面 的 if 函数 、 
vlookup 函数 ,SQL 里 面 的 count 函数 ,以 及 各 种 语言 中 都 有 的 sqrt 函数 ,等 等 ,Python 中 
也 有 很 多 函数 。 

Python 中 的 方法 是 与 某 些 对 象 有 紧密 联系 的 函数 ,所 以 列表 方法 也 就 是 属于 列表 的 函 
数 , 它 可 以 对 列表 执行 一 些 比较 深入 的 操作 。 方 法 的 调用 格式 如 下 : 


对 象 .方法 (参数 ) 

列表 方法 的 调用 格式 如 下 : 

列表 .方法 (参数 ) 

下 面 介 绍 常用 的 列表 方法 ,以 a==['h',"e','1','1','0'] 为 例 来 说 明 。 
a 

Out[20]: ['h', 'e', '1', '1', 'o'] 

在 列表 a 的 索引 2 位 置 插入 一 个 元 素 t: 
a. insert(2, 't') 

a 

00t[22]: [ "hi; *e*, 9e; 1t n tot] 

在 列表 的 最 后 添加 元 素 q: 

a.append( 'q') 


a 
Out[24]: ['h', 'e', 't', '1', "1', 'o', 'q'] 
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返回 a 列表 中 元 素 e 第 一 次 出 现 的 索引 位 置 : 
a. index('e') 
Out[25]: 1 


删除 a 中 的 第 一 个 元 素 e: 


a. remove( 'e') 
a 
out[27]: ['h', 'E', '1', 15, "o', 'q'] 


将 列表 a 中 的 所 有 元 素 从 小 到 大 排列 : 


a. sort() 
a 
Out[29]: ['h', '1', '1', 'o', 'q', 't'] 


4. 字典 操作 

1) 创建 字典 

dict 函数 可 以 通过 关键 字 参 数 来 创建 字典 ,格式 为 

dict( 参 数 1= 值 1, 参数 2= 值 2，…) 

例如 ,创建 一 个 名 字 (name) 为 jiayounet EH Cage) H 27 的 字典 


dict(name = 'jiayounet',age = 27) 

Out[30]: ('age': 27, 'name': 'jiayounet'} 

2) 基本 操作 

字典 的 基本 操作 与 列表 在 很 多 地 方 都 相似 ,两 者 的 对 照 如 表 2-1 所 示 。 表 中 以 序列 a= 
[1.3.6.10 ] ffl Jl. f= ('age': 27. 'name': 'shushuo') 为 例 。 


表 2-1 列表 与 字典 的 基本 操作 对 照 


列表 操作 字典 操作 
功 能 
格 式 例 格 式 例 
求 长 度 len( 列 表 ) len( 字 典 ) A 
"INE 
找到 某 位 置 上 的 值 | 列表 [索引 号 ] 字典 [ 键 ] wes 
a[2]=1 f['age']=28 
元 素 赋值 列表 [索引 ]= 值 | a 字典 [ 键 ]= 值 | f 
[1,3.1.10] {'age':28, 'name' : 'shushuo') 
del a[1] del f[ 'name'] 
删除 元 素 del 列表 [索引 ] | a del FRC] |f 
[1.6.10] {'age':28} 
] CE 
成 员 资格 元 素 in 列 表 |10 minga 26 
True True 
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2.3 Python 函数 


函数 可 以 由 用 户 自己 定义 ,格式 如 下 : 

def 函数 名 (参数 ) :函数 代码 

函数 代码 中 ,return 表示 返回 的 值 。 例 如 ,定义 一 个 平方 函数 square GO ,输入 参数 x, 
返回 x 的 平方 : 


def square(x):return x * x 
square(9) 
Out[33]: 81 


又 如 ,定义 一 个 两 数 相 加 的 函数 : 


def add 2int(x, y): 
returnx+y 

print add 2int(2, 2) 

4 

有 时 需要 定义 参数 个 数 可 变 的 函数 ,在 定义 时 可 以 给 参数 指定 默认 值 。 

例如 ,定义 函数 f(a,b 二 1,c 二 'hehe') ,那么 在 调用 的 时 候 ,后 面 两 个 参数 可 以 指定 ,也 可 
以 不 指定 ,不 指定 时 默认 为 b==1,c== 'hehe', 因 此 如 下 调用 都 是 正确 的 : 

f('dsds') 

f('dsds',2) 

f£('dsds',2, 'hdasda') 

上 面 的 方法 等 于 固定 了 参数 的 位 置 ,第 一 个 值 就 是 第 一 个 参数 的 值 。 除 此 之 外 ,调用 时 
还 可 以 采用 参数 关键 字 方 法 。 例 如 仍然 是 函数 Ca, b=1,c= 'hehe') ,调用 的 时 候 可 以 用 参 
数 关键 字 来 赋值 : 


f(b=2,a=11) 


这 样 ,参数 的 位 置 可 变 ,只 要 给 出 参数 关键 字 就 可 以 了 。 


2.4 Python 条 件 与 循环 


Python 用 缩 进来 标识 出 哪 一 段 代 码 是 循环 体 。 
1. 证 语句 
注意 : 循环 体 的 代码 要 缩 进 ; 条 件 后 面 有 冒号 ":”。 例 如 : 


j22.67 
if j<3: 

print 'j<3' 
j<3 


对 于 多 条 件 过 语句 ,注意 其 中 的 elif 不 要 写成 elseif ,标准 格式 为 
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WÄ if elif 和 else 是 对 齐 的 ,不 能 有 缩 进 : 


t=3 
ift«3: 
print 't« 3" 
elif t 223: 
print 't-3' 
else: 
print 't>3' 
t=3 


2. while 语句 
while 语句 的 格式 为 


while 条 件 1: 

执行 语句 

if 条 件 2: break 
例如 : 


a=3 

while a< 10: 
a-atl 
printa 
ifa--8: break 


ounous 


虽然 while 后 面 的 条 件 是 a 二 10, 即 a 小 于 10 的 时 候 一 直 执 行 , 但 是 i£ 条 件 中 规定 了 a 
为 8 时 就 中 止 循环 ,因此 ,执行 结果 只 输出 到 8。 


3. for 语句 

for 语句 的 格式 为 
for 条 件 : 

执行 语句 


for 请 句 可 以 用 于 遍历 一 个 序列 /字典 等 。 例 如 : 


a= [1,2,3,4,5] 
foriina: 
print i 


4. 列表 推导 式 

列表 推导 式 是 利用 其 他 列表 创建 一 个 新 列表 的 方法 ,其 工作 方式 类 似 于 for 循环 , 格 
式 为 

[输出 值 for 条 件 ] 


当 满 足 条 件 时 ,输出 一 个 值 ,最 终 形成 一 个 列表 。 例 如 : 


[x * x for x in range(10)] 

Out[45]: [0, 1, 4, 9, 16, 25, 36, 49, 64, 81] 
[x* x for x in range(10) if x$3--0] 
Out[46]: [0, 9, 36, 81] 


以 上 的 例子 就 是 利用 序列 [0,1,2,3,4,5,6,7,8,9] 分 别 生成 了 两 个 新 的 序列 。 
2.5 Python 类 与 对 象 


1. 类 与 对 象 
类 是 一 个 抽象 的 概念 , 它 只 是 为 所 有 的 对 象 定义 了 抽象 的 属性 与 行为 。 而 对 象 是 类 的 
具体 个 体 。 
类 的 对 象 也 叫 类 的 实例 。 类 就 像 一 个 模具 ,对 象 就 是 用 这 个 模具 造 出 来 的 具体 的 物品 ， 
用 这 个 模具 造 出 一 个 具体 的 物品 ,就 叫 类 的 实例 化 。 
2. 定义 一 个 类 
下 面 看 一 个 具体 的 类 : 
class boy: 
gender = 'male' 
interest = 'girl' 


def say(self): 
return 'i am a boy' 


上 面 的 语句 定义 了 一 个 类 boy, 之 后 可 以 用 类 boy 构造 一 个 对 象 : 
peter = boy() 
现在 来 看 看 peter 这 个 对 象 有 哪些 属性 和 方法 。 


属性 和 方法 是 类 的 两 种 表现 ,静态 的 叫 属性 ,动态 的 叫 方 法 。 例 如 “人 ”这 个 类 的 属性 有 
姓名 、 性 别 、 身 高 ,年 龄 ,体重 等 ,方法 有 走 、 跑 、 跳 等 。 
peter. gender 


Out[49]: 'male' 
peter. interest 
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Out[50]: 'girl' 
peter. say() 
Out[51]: 'i am a boy' 


这 里 gender 和 interest 是 peter 的 属性 ,而 Say 是 peter 的 方法 。 
如 果 再 实例 化 另 一 个 对 象 , 例 如 sam: 


sam= boy() 

sam. gender 

Out[54]: 'male' 

sam. interest 
Out[55]: 'girl' 

sam. say() 

Out[56]: 'i ama boy' 


那么 sam 和 peter 就 有 一 样 的 属性 和 方法 。 


练习 题 
1. 用 字典 形式 读 人 如 下 数据 。 


conc state 

0.02 treated 
0.06 treated 
0.11 treated 


2. 编写 一 个 函数 , 求 数据 y= Ci ,ys，…，,y,) 的 均值 .标准 差 。 
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本 章 介 绍 NumPy 的 基础 知识 。 


3.1 NumPy 概述 


量化 金融 投资 分 析 的 工作 涉及 大 量 的 数值 运算 ,一 个 高 效 便捷 的 科学 计算 工具 是 必 不 
可 少 的 。Python 语言 一 开始 并 不 是 为 科学 计算 设计 的 , 随 着 越 来 越 多 的 人 发 现 Python 的 
易 用 性 ,逐渐 出 现 了 关于 Python 的 大 量 外 部 扩展 模块 ,NumPy (Numeric Python) 就 是 其 中 
之 一 。NumPy 提供 了 大 量 的 数值 编程 工具 ,可 以 方便 地 处 理 向 量 ,矩阵 等 运算 , 极 大 地 便利 
了 人 们 在 科学 计算 方面 的 工作 。 另 一 方面 ,Python 是 免费 的 , 相 比 于 费用 高 昂 的 Matlab, 
NumPy 的 出 现 使 Python 得 到 了 更 多 人 的 青睐 。 

首先 简单 看 一 下 如 何 开始 使 用 NumPy: 

import numpY 

numpy.version.full version 

wh P i e: Gd 

使 用 import 命令 导入 了 NumPy.Jf ffi numpy. version. full. version # iH f NumPy 
版 本 为 1. 11.1。 在 后 面 的 介绍 中 ,将 大 量 使 用 NumPy 中 的 函数 .每 次 使 用 都 在 函数 前 添加 
“numpy. “作为 前 级 比较 费劲 .2.1 节 介 绍 了 引入 外 部 扩展 模块 时 的 小 技巧 ,可 以 使 用 from 
numpy import * 解决 这 一 问题 。 

Python 的 外 部 扩展 模块 成 千 上 万 ,在 使 用 中 很 可 能 会 导入 几 个 外 部 扩展 模块 ,如 果 某 
个 模块 包含 的 属性 和 方法 与 男 一 个 模块 的 同名 ,就 必须 使 用 import module 来 避免 名 字 的 
冲突 。 这 种 情况 即 所 谓 的 名 字 空 间 (namespace) 冲 突 了 ,所 以 前 级 最 好 还 是 带 上 。 

那么 有 没有 简单 的 办 法 呢 ? 办 法 是 在 导入 扩展 模块 时 给 模块 定义 在 程序 中 使 用 的 别 
名 ,调用 时 就 不 必 写 出 全 名 了 。 例 如 ,使 用 np 作为 别名 并 调用 version. full version 函数 : 

import numpy as np 


np.version.full version 
111,17" 


3.2 NumPy 对 象 初步 : 数组 


NumPy 中 的 基本 对 象 是 同类 型 的 多 维 数组 (homogeneous mnultidimensional array) ,这 
和 C++ 中 的 数组 是 一 致 的 ,例如 字符 型 和 数值 型 不 可 共存 于 同一 个 数组 中 。 先 看 例子 : 
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a = np.arange(20) 
这 里 生成 了 一 个 一 维 数组 a, 从 0 开始 , 步 长 为 1, 长度 为 20。Python 中 的 计数 是 从 0 
开始 的 ,R 语言 和 Matlab 的 使 用 者 需要 注意 这 一 点 。 可 以 使 用 print 查看 a 数组 : 


printa 
[0123456789 1011 12 13 14 15 16 17 18 19] 


可 以 通过 type 函数 查看 a 的 类 型 ,这 里 显示 a 是 一 个 数组 


type(a) 

numpy.ndarray 

通过 函数 reshape 可 以 重新 构造 这 个 数组 。 例 如 ,可 以 构造 一 个 4X5 的 二 维 数组 ,其 
中 reshape 的 参数 表示 各 维 的 大 小 , 且 按 各 维 顺序 排列 (二 维 时 就 是 按 行 排列 ,这 和 R 语言 
中 按 列 排列 是 不 同 的 ): 

a 7 a.reshape(4, 5) 

printa 

[[0 1 2 3 4] 

[5 6 76 9] 


[10 11 12 13 14] 
[15 16 17 18 19]] 


还 可 以 构造 更 高 维 的 数组 : 


a = a.reshape(2, 2, 5) 

print a 

[[[0123 4] 
[56789]] 


[[10 11 12 13 14] 
[15 16 17 18 19]]] 
既然 a 是 array, 就 可 以 调用 array 的 函数 进一步 查看 a 的 相关 属性 : ndim 可 查看 维 
度 ; shape 可 查看 各 维 的 大 小 ; size 可 查看 数组 的 元 素 个 数 ,等 于 各 维 大 小 的 乘积 ; dtype 可 
查看 元 素 类 型 ; dsize 可 查看 元 素 占 存储 空间 的 大 小 (以 字 节 为 单位 )。 
a.ndim 
3 


a. shape 
(2, 2, 5) 


a. dtype 
dtype( 'int64') 


3.3 创建 数组 
数组 的 创建 可 通过 转换 列表 实现 ,高 维 数组 可 通过 转换 拭 套 列表 实现 ; 


raw = [0,1,2,3,4] 
a 7 np.array(raw) 


array([0, 1, 2, 3, 4]) 


raw = [[0,1,2,3,4], [5,6,7,8,9]] 


b 7 np.array(raw) 
b 


array([[0, 1, 2, 3, 4], 
[5, 6, 7, 8, 9]]) 


一 些 特 殊 的 数组 由 特殊 的 命令 生成 ,如 创建 4X5 的 全 零 矩阵 : 


d= (4, 5) 

np. zeros(d) 

array([[ 0., 
[ 0.， 


oooo 


oooo 


0.3; 
0.], 
8.1; 
0.]]) 


默认 生成 的 元 素 类 型 是 浮 点 型 ,可 以 通过 指定 类 型 来 改变 。 例 如 : 


d= (4, 5) 


np.ones(d, dtype- int) 

array([[1, 1, 1, 1, 1], 
[15 5, 1, 3,11, 
[1,15 1, 1,1], 
[1, 1; 2, 1, 1]]) 


以 下 创建 一 个 [0,1) 区 间 的 随机 数 数组 : 


np. random. rand( 5) 


array([ 0.06005608, 0.4479634, 0.42202299, 0.16803542, 0.05508347]) 


3.4 数组 和 矩阵 的 运算 


数组 的 四 则 运算 要 对 全 部 的 数组 元 素 进 行 ,以 加 法 为 例 : 


a = np.array([[1.0, 2], [2, 4]]) 


print "a:" 
printa 


b = np.array([[3.2, 1.5], [2.5, 4]]) 


print "b:" 
print b 
print "a4 b:" 
printa*b 
a: 

[E 1.2.4 
[2.4.1] 

b: 
I£:3:2:1.51 
Ls 31 
atb: 

[[ 4.2 3.5] 
[ 4.58. ]] 
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这 里 可 以 发 现 ,a 中 虽然 仅 有 一 个 元 素 是 浮 点 数 ,其 余 均 为 整数 ,但 在 处 理 中 Python 会 
自动 将 整数 转换 为 浮 点 数 (因为 数组 元 素 必须 是 同类 型 的 ) ,并 且 ,两 个 二 维 数组 相 加 要 求 各 
维 大 小 相同 。 当 然 , 在 NumPy 里 这 些 运算 符 也 可 以 对 标量 和 数组 进行 操作 ,结果 是 数组 的 
全 部 元 素 分 别 与 这 个 标量 进行 运算 。 例 如 : 


print"3 * a:;" 
print3 * a 
print "b * 1.8:" 
print b + 1.8 
3*a: 

| :6.] 

LD: 12. 1] 

b+ 1.8: 

iS: 3:3] 

[ 4.3 5.8]] 


在 NumPy 中 同样 支持 十 二、 一 二 、* 二 、/ 二 操作 符 : 


a/= 2 
print a 
[[ 0.51.] 
[1. 2. Ji 


NumPy 还 支持 求 平方 根 和 求索 运算 : 


print "a:" 

printa 

print "np. exp(a):" 

print np.exp(a) 

print "np.sqrt(a):" 

print np. sqrt(a) 

print "np. square(a) :" 

print np. square(a) 

print "np. power(a, 3):" 
print np. power(a, 3) 

a: 

[0.5 1. ] 

[i1. 2. M 

np.exp(a): 

[1.64872127 2.71828183] 
[ 2.71828183 7.3890561 ]] 
np.sqrt(a): 

[0.70710678 1. ] 
Di. 1.41421356]] 
np. square(a) : 

[0.25 1. ] 

[i3 4. 31 

np. power(a, 3): 

[0.125 . 1. ] 

EA 8. n 
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需要 知道 二 维 数组 元 素 的 最 大 值 . 最 小 值 怎么 办 ? 要 计算 全 部 元 素 的 和 、 按 行 求 和 、 按 
列 求 和 怎么 办 ? 要 利用 for 循环 吗 ? 不 用 ,NumPy 的 ndarray 类 提供 了 相应 的 函数 : 


a = np.arange(20).reshape(4,5) 
print "a:;" 
printa 
print "sum of all elements ina: " * str(a.sum()) 
print "maximum element ina: " * str(a.max()) 
print "minimum element ina: " * str(a.min()) 
print "maximum element in each row of a: " + str(a.max(axis = 1)) 
print "minimum element in each column of a: " + str(a.min(axis = 0)) 
a: 
Wio 1 2 3 4] 
[5 6 7 8 9] 
[10 11 12 13 14] 
[15 16 17 18 19]] 
sum of all elements in a: 190 
maximum element in a: 19 
minimum element in a: 0 
maximum element in each row of a: [4 9 14 19] 
minimum element in each column of a: [0 1 2 3 4] 


科学 计算 中 大 量 使 用 到 和 矩阵 运算 ,NumPy 提供 了 和 矩阵 对 象 Cmatrix)。 和 矩阵 对 象 和 数组 
对 象 主要 有 两 点 差别 : 矩阵 是 二 维 的 ,而 数组 可 以 是 任意 正 整 数 维 ; 四 矩阵 的 * 操作 符 
进行 的 是 矩阵 乘法 , 乘 号 左 侧 的 矩阵 列 和 乘 号 右 侧 的 矩阵 行 大 小 要 相等 ,而 数组 的 * 操作 符 
是 对 应 元 素 两 两 相 乘 , 乘 号 两 侧 的 数组 每 一 维 大 小 都 需要 一 致 。 数 组 可 以 通过 asmatrix 或 
者 mat 转换 为 矩阵 ,也 可 以 直接 生成 矩阵 : 


a = np.arange(20).reshape(4, 5) 

a 7 np.asmatrix(a) 

print type(a) 

b = np.matrix('1.0 2.0; 3.0 4.0") 

print type(b) 

<class 'numpy.matrixlib.defmatrix. matrix'^ 
«class 'numpy.matrixlib.defmatrix. matrix'^ 


再 来 看 一 下 矩阵 的 乘法 。 使 用 arange 生成 另 一 个 矩阵 b, 可 以 通过 arange GE A6 2X IE , 
步 长 ) 的 方式 调用 arange 函数 生成 等 差 数 列 。 注 意 ,指定 起 始 和 终止 值 时 含 头 不 含 尾 。 


b = np.arange(2, 45, 3).reshape(5, 3) 
b = np.mat(b) 

print b 

[[ 2 5 8] 

[11 14 17] 

[20 23 26] 

[29 32 35] 

[38 41 44]] 


arange 指定 的 是 步 长 ,如 果 想 指定 生成 的 一 维 数组 的 长 度 怎么 办 ? linspace 就 可 以 
做 到 : 


- 
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np. linspace(0, 2, 9) 
array([0. ., 0.25, 0.5, 10.75, 1. , 125, 1-5, 1.75, 2. ]) 


回 到 前 面 的 问题 ,矩阵 a b 做 矩阵 乘法 : 


print "matrix a:" 

printa 

print "matrix b:" 

print b 

c-a*b 

print "matrix c:" 

print c 

matrix a: 

oa 2 3: 4] 
[56 78 9] 
[10 11 12 13 14] 
[15 16 17 18 19]] 

matrix b: 

[[2 5 8] 

[11 14 17] 
[20 23 26] 
[29 32 35] 
[38 41 44]] 

matrix c: 

[[ 290 320 350] 
[790 895 1000] 
[1290 1470 1650] 
[1790 2045 2300]] 


3.5 访问 数组 和 矩阵 元 素 
数组 和 和 矩 阵 元 素 的 访问 可 通过 下 标 进 行 ,以 下 均 以 二 维 数组 (或 矩阵 ) 为 例 。 


a 7 np.array([[3.2, 1.5], [2.5, 4]]) 
print a[0][1] 

print a[0, 1] 

1.5 

1.5 


可 以 通过 下 标 访问 并 修改 数组 元 素 的 值 : 


baa 
a[0][1] 
print "a: 
printa 
print "b: 
print b 
a: 
E32: 2; ] 
[2.5 4. ]] 
b: 


2.0 


[E32 2.1) 
[2.5 4. ]] 


现在 问题 来 了 ,明明 改 的 是 aL0][1], 怎 么 连 bL0]L1] 也 跟着 变 了 ? 这 个 陷阱 在 Python 
编程 中 很 容易 碰 上 ,其 原因 在 于 Python 不 是 真正 将 a 复制 一 份 给 b, 而 是 将 b 指向 a 对 应 
数据 的 内 存 地 址 。 想 要 真正 将 a 复制 给 b, 可 以 使 用 copy 函数 : 


a 7 np.array([[3.2, 1.5], [2.5, 4]]) 
b 7 a.copy() 

a[0][1] = 2.0 

print "a:" 

printa 

print "b:" 

print b 

a: 

[[.3;2- 2. ] 

[2:5 4.1] 

b: 

[[3.2 1.5] 
[25 4. 1] 


若 对 a 重新 赋值 , 则 会 将 a 指向 其 他 地 址 ,而 b 仍 在 原来 的 地 址 : 


a = np.array([[3.2, 1.5], [2.5, 411) 
b = a 

a = np.array([[2, 1], [9, 3]]) 
print "a:" 

printa 

print "b:" 

print b 

a: 

[[2 1] 

[9 3]] 

b: 

[E-3.2. 1.51 

[:2:5: 34. 41 


利用 ':' 可 以 访问 某 一 维 的 全 部 数据 ,例如 取 和 矩阵 中 的 指定 列 ， 


a = np.arange(20).reshape(4, 5) 
print "a:" 
printa 
print "the 2nd and 4th column of a:" 
print a[:,[1,3]] 
a: 

[01 2 3 4] 

[56 78-9] 

[10 11 12 13 14] 

[15 16 17 18 19]] 
the 2nd and 4th column of a: 

[[1 3] 

[6 8] 
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[11 13] 
[16 18]] 


更 复杂 的 情况 是 取出 满足 某 些 条 件 的 元 素 , 这 在 数据 的 处 理 中 十 分 常见 ,通常 用 在 单行 
单列 上 。 下 面 这 个 例子 是 将 a 中 第 一 列 大 于 5 的 元 素 (10 和 15) 对 应 的 第 三 列 元 素 (12 和 
17) 取 出 来 : 


a[:, 2][a[:, 0] > 5] 
array([12, 17]) 


可 使 用 where 函数 查找 特定 值 在 数组 中 的 位 置 : 


loc = numpy.where(a== 11) 
print loc 

print a[1loc[0][0], 1oc[1][0]] 
(array([2]), array([1])) 
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首先 来 看 矩阵 转 置 ; 


a = np. random. rand(2,4) 

print "a:" 

printa 

a 7 np.transpose(a) 

print "a is an array, by using transpose(a):" 

printa 

b = np. random. rand(2,4) 

b 7 np.mat(b) 

print "b:" 

print b 

print "b is a matrix, by using b.T:" 

print b.T 

a: 

[[ 0.17571282 20.98510461 0.94864387 0.50078988] 
[0.09457965 0.70251658 0.07134875 0.43780173]] 

a is an array, by using transpose(a): 


[[ 0.17571282 0.09457965] 
[.0.98510461 0.70251658] 
[.0.94864387  0.07134875] 
[ 0.50078988 0.43780173]] 


b: 
[[ 0.09653644 0.46123468 0.50117363 0.69752578] 
[ 0.60756723 0.44492537 0.05946373 0.4858369 ]] 
b is a matrix, by using b.T: 
[[ 0.09653644 0.60756723] 
[.0.46123468 0.44492537] 
[.0.50117363 0.05946373] 
[ 0.69752578 0.4858369 ]] 


VA FEER ; 


import numpy.linalg as nlg 
a = np.randonm. rand(2,2) 
a 7 np.mat(a) 
print "a:" 
printa 
ia = nlg.inv(a) 
print "inverse of a:" 
print ia 
print"a * inv(a)" 
printa * ia 
a: 
[[ 0.86211266  0.6885563 ] 
[ 0.28798536 0.70810425]] 
inverse of a: 
[[ 1.71798445 -1.6705577 ] 
[-0.69870271  2.09163573]] 
a * inv(a) 
[[1. 0.] 
[9. 1. 


以 下 是 求 特征 值 和 特征 向 量 : 


a = np.random.rand(3,3) 

eig value, eig vector = nlg.eig(a) 

print "eigen value:" 

print eig value 

print "eigen vector:" 

print eig vector 

eigen value: 

[1.35760609 0.43205379 - 0.53470662] 

eigen vector: 

[[ - 0. 76595379 - 0.88231952 - 0.07390831] 
[-0.55170557  0.21659887 - 0.74213622] 
[-0.33005418  0.41784829  0.66616169]] 


以 下 是 按 列 拼接 两 个 向 量 构成 一 个 矩阵 : 


a = np.array((1,2,3)) 
b = np.array((2,3,4)) 
print np.column stack((a,b)) 
[[1 2] 
[2 3] 
[3 4]] 


在 循环 处 理 某 些 数据 得 到 结果 后 ,将 结果 拼接 成 一 个 矩阵 是 十 分 有 用 的 ,可 以 通过 
vstack 和 hstack 完 


a = np.random.rand(2,2) 
b = np. random. rand(2,2) 
print "a:" 


printa 
c = np.hstack([a,b]) 
d = np.vstack([a,b]) 
print "horizontal stacking a and b:" 
print c 
print "vertical stacking a and b:" 
printd 
a: 
[[ 0.6738195 — 0.4944045 ] 
[.0.25702675 0.15422012]] 
b: 
[[ 0.6738195  0.4944045 ] 
[ 0.25702675 0.15422012]] 
horizontal stacking a and b: 
[[ 0.6738195  0.4944045  0.28058267 0.0967197 ] 
[ 0.25702675 0.15422012 0.55191041 0.04694485]] 
vertical stacking a and b: 
[[ 0.6738195 0.4944045 ] 
[ 0.25702675 0.15422012] 
[ 0.28058267 0.0967197 ] 
[ 0.55191041 0.04694485]] 


3.7 缺失 值 


缺失 值 在 量化 分 析 中 也 是 一 种 信息 ,NumPy 提供 了 nan 作为 缺失 值 的 记录 ,通过 isnan 
函数 判定 是 否 为 缺失 值 。 
a = np. random. rand(2,2) 
a[0, 1] = np.nan 
print np. isnan(a) 
[[False True] 
[False False]] 


nan to num 函数 可 将 nan 替换 成 0, 在 6.3.2 节 将 介绍 pandas 提供 的 指定 nan 替换 值 
的 函数 。 


print np.nan to nun(a) 
[[ 0.58144238 0. ] 
[ 0.26789784  0.48664306]] 
NumPy 还 有 很 多 函数 ,详细 信息 可 参考 http: // wiki. scipy. org/Numpy, Example List 
和 http://docs. scipy. org/doc/numpy。 


3.8 一 元 线性 回归 分 析 的 NumPy 应 用 


一 元 线性 回归 分 析 模 型 是 最 基本 的 回归 模型 ,其 数学 表达 式 是 
3—acbx-ce (3-D 
式 中 : 3 一 一 预测 对 象 , 因 变 量 或 被 解释 变量 的 预测 值 。 


z 影响 因素 , 自 变量 或 解释 变量 的 相应 值 。 
a,9 一 一 待 估计 的 参数 , 称 为 回归 系数 。 
e 一 一 偏差 (或 估计 误差 、 残 差 ) 。 
为 了 估计 ab 参数 ,最 常用 的 方法 是 最 小 二 乘法 。 首 先 ,要 收集 预测 对 象 y 及 相关 因素 
zc 的 数据 样本 n 对 (实际 值 ): 
(y19T1) s Cys 9T2) "(Yrs Tn ) 
青 将 其 描绘 在 坐标 图 上 (z 为 横 轴 ,y 为 纵 轴 )。 当 这 对 数据 点 近似 呈 直 线 分 布 时 , 则 可 以 
应 用 一 元 线性 回归 模型 , 即 式 (3.1)。 式 中 a 十 bx 二 y 应 是 预测 对 象 的 实际 值 ,因而 对 应 样 
本 中 的 每 一 个 x; 都 有 一 个 y; 的 估计 值 ,i 二 1,2,…,n; y Sy; 之 间 存 在 偏差 6; ,于 是 有 
& = y; — Şi = yı —a — br; 
设 
Q= Sa = Y —a — br)? 


可 见 ,Q 是 参数 a uo 的 函数 。 为 了 求 Q 的 最 小 值 ,可 利用 极 值 原理 : 
Ro Ro 
2a 


Ib 
Bp 
ZQ —— 23] Gi —a— bei) = 221 (a bri — y) = 0 
G i=l i=l 
M 29]xQi—a—br) = 2?) xi(a- bx; — y) — 0 
i=l i=l 
求解 此 联 立 方程 可 得 
Muy -| E > 外 B 
b =1 - i = -— 1 M D Da 
n "iu n ia 
Ma = ( a ) n 
=1 i=l 
d z2lwu 5-15 
Ej T " 2e y m 24» 
则 Q 一 了 一 0 工 
例如 ,10 家 饭店 的 季度 销售 额 和 到 这 些 饭 店 吃饭 的 学 生 人 数 的 数据 如 表 3-1 Bros 。 
表 3-1 10 家 饭店 的 数据 
"m Mer ET d m d 
1 58 2 116 4 
2 105 6 630 36 
3 88 8 704 64 
4 118 8 944 64 
5 117 12 1404 144 
6 137 16 2192 256 
7 157 20 3140 400 


续 表 
序号 销售 额 / 千 美元 学 生 数 / 千 人 E z 
Ni i 
169 20 3380 400 
149 22 3278 484 
10 202 26 5252 676 
合计 1300 140 21 040 2528 
根据 表 3-1 中 的 数据 可 得 
Zaw: i ( Xa n 21 040 — (140 X 1300)/10 _ 2840/568 = 5 
5 > (È J/ 2528 — 1407/10 
XT = Xi n 
i=l i-l 
a = y—bx = 1300/10 — 5 X 140/10 = 60 
则 得 到 一 元 线性 回归 模型 为 
y = 60--5x (3-2) 


例如 , 当 学 生 人 数 为 30 时 ,根据 此 模型 ,销售 额 是 210( 单 位 是 千 美元 ) 。 
使 用 NumPy 编制 Python 代码 如 下 : 


import numpy as np 
def fitSLR(x, y): 
n 7 len(x) 
dinominator - 0 
numerator - 0 
for i in range(0, n): 
numerator += (x[i] - np.mean(x)) * (y[i] - np.mean(y)) 
dinominator += (x[i] - np.mean(x)) * *2 
bi = numerator/float(dinominator) 
b0 = np.mean(y)/float(np. mean(x)) 
return b0, bl 
def predict(x, b0, bl): 
return b0 + x* bl 
x (1,3, 2, 1, 3] 
y = [14, 24, 18, 17, 27] 
b0, bl = fitSLR(x, y) 
print "intercept:", b0, " slope:", bl 
x test - 6 
y test = predict(6, b0, bl) 
print "y test:", y test 


执行 上 述 代码 ,结果 如 下 : 


intercept: 10.0 slope: 5.0 
y test: 40.0 


练习 题 
对 本 章 中 例题 数据 ,使 用 Python 重新 操作 一 谢 。 


“ SciPy 在 量化 金融 投资 
o 第 4 章 。 分 析 中 的 应 用 


@ o-o-o 


本 童 介绍 另 一 个 量化 金融 投资 分 析 中 常用 的 库 一 一 SciPy。 


4.1 SciPy 概述 


第 3 章 介 绍 了 NumPy ,下面 我 们 来 看 看 SciPy 能 做 些 什么 。NumpPy ft ie T p] t AE 
阵 的 相关 操作 的 问题 ,基本 上 算是 一 个 高 级 的 科学 计算 器 。SciPy 基于 NumPy 提供 了 更 为 
丰富 和 高 级 的 功能 扩展 ,在 统计 、 优 化 .插值 数值 积分 、 时 频 转换 等 方面 提供 了 大 量 的 可 用 
函数 ,基本 覆盖 了 基础 科学 计算 相关 的 问题 。 

在 量化 金融 投资 分 析 中 运用 最 广泛 的 是 统计 和 优化 的 相关 技术 ,本 章 重 点 介绍 SciPy 
中 的 统计 和 优化 模块 ,其 他 模块 在 后 面 用 到 时 再 做 详 述 。 

本 章 会 涉及 一 些 矩 阵 代数 的 知识 ,如 若 感觉 理解 困难 ,可 以 跳 过 4. 3 节 或 者 在 理解 时 用 

- 维 的 标量 代替 高 维 的 向 量 。 
首先 导入 相关 的 模块 ,本 章 使 用 的 是 SciPy 里 面 的 统计 和 优化 部 分 : 
import numpy as np 


import scipy. stats as stats 
import scipy. optimize as opt 


4.2 统计 知识 


1. 生成 随机 数 

我 们 从 生成 随机 数 开 始 ,这 样 方便 后 面 的 介绍 。 要 生成 个 随机 数 ,可 以 调用 
rv_continuous. iiie ats rv. discrete. rvsCsize— n), t} .rv. continuous 表示 连续 型 
的 随机 分 布 , 如 均匀 分 布 Cuniform) , IE & 21 f (norm) B 43 fi (beta) 5$; rv. discrete 表示 离 
散 型 的 随机 分 布 , 如 伯 努 利 分 布 (bernoulli) ,JL faf 41 f (geom) 、 泊 松 分 布 (poisson) 等 。 下 面 
生成 10 个 [0,1] 区 间 上 的 随机 数 和 10 个 服从 参数 a— 4. b —2 的 8 分布 随机 数 : 


rv_unif = stats.uniform.rvs(size=10) 

print rv unif 

rv beta = stats.beta.rvs(size- 10, a-4, b=2) 

print rv beta 

[0.6419336 0.48403001 0.89548809 0.73837498 0.65744886 0.41845577 
0.3823512  Á0.0985301  0.66785949 0.73163835] 

[0.82164685 0.69563836 0.74207073 0.94348192 0.82979411 0.87013796 
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0.78412952 0.47508183 0.29296073 0.52551156] 


每 个 随机 分 布 的 生成 函数 都 内 置 了 默认 的 参数 ,如 均匀 分 布 的 上 下 界 默认 是 0 和 1。 
可 是 一 旦 需要 修改 这 些 参数 ,每 次 生成 随机 数 都 要 输入 这 么 长 一 串 有 点 麻烦 ,能 不 能 简单 
点 ? SciPy 中 有 一 个 Freezing 的 功能 ,可 以 提供 简便 版 本 的 命令 。SciPy. stats 支持 定义 某 
个 具体 分 布 的 对 象 ,可 以 做 如 下 的 定义 ,让 beta 直接 指 代 具 体 参数 a 二 4 f b—2 的 B 分 布 。 
为 让 结果 具有 可 比 性 ,这 里 指定 了 随机 数 的 生成 种 子 , 由 NumPy 提供 。 


np. random. seed( seed = 2015) 

rv beta = stats.beta.rvs(size- 10, a-4, b-2) 

print "method 1:" 

print rv beta 

np. random. seed(seed = 2015) 

beta = stats.beta(a-4, b-2) 

print "method 2:" 

print beta.rvs(size- 10) 

method 1: 

[0.43857338 0.9411551  0.75116671 0.92002864 0.62030521 0.56585548 
0.41843548 0.5953096  0.88983036 0.94675351] 

method 2: 

[0.43857338 0.9411551  0.75116671 0.92002864 0.62030521 0.56585548 
0.41843548 0.5953096  0.88983036 0.94675351] 


2. 假设 检验 
现在 生成 一 组 数据 ,并 查看 相关 的 统计 量 (相关 分 布 的 参数 可 以 查阅 http: //docs. 


scipy. org/ doc/ scipy/reference/stats. html) : 


norm dist = stats.norm(loc= 0.5, scale- 2) 

n - 200 

dat = norm dist.rvs(size- n) 

print "mean of data is: " * str(np.mean(dat)) 

print "median of data is: " * str(np.median(dat)) 

print "standard deviation of data is: " * str(np.std(dat)) 
mean of data is: 0.437675174955 

median of data is: 0.380911679917 

standard deviation of data is: 1.90178129595 


假设 这 些 数据 是 我 们 获取 到 的 某 些 实际 数据 ,如 股票 日 涨 跌幅 ,要 对 数据 进行 简单 的 分 
析 。 最 简单 的 是 检验 这 一 组 数据 是 否 服 从 假设 的 分 布 ,如 正 态 分 布 。 这 个 问题 是 典型 的 单 
样本 假设 检验 问题 ,最 常见 的 解决 方案 是 采用 K-S 检验 (Kolmogorov-Smirnov test)。 单 样 
本 K-S 检验 的 原 假设 是 给 定 的 数据 来 自 和 原 假设 相同 的 分 布 。 在 SciPy 中 提供 了 kstest K 
数 , 参 数 分 别 是 数据 、 拟 检验 的 分 布 名称 和 对 应 的 参数 : 


mu = np.mean(dat) 

sigma = np. std(dat) 

stat val, p val = stats.kstest(dat, 'norm', (mu, sigma)) 

print 'KS- statistic D = %6.3f p-value = %6.4f' % (stat val, p val) 
KS- statistic D = 0.039 p- value = 0.9252 


假设 检验 的 p-value 很 大 (在 原 假设 下 ,p-value 是 服从 [0,1] 区 间 上 的 正 态 分 布 的 随机 
变量 ,可 参考 http://en. wikipedia. org/wiki/P-value) ,因此 接受 原 假 设 , 即 该 数据 通过 了 正 
态 性 的 检验 。 在 正 态 性 的 前 提 下 ,可 进一步 检验 这 组 数据 的 均值 是 不 是 0。 典型 的 方法 是 t 
检验 (t-test) ,其 中 单 样 本 的 t 检验 函数 为 ttest_lsamp: 

stat val, p val = stats.ttest lsamp(dat, 0) 

print 'One- sample t- statistic D = %6.3f, p-value = 5$6.4f' % (stat val, p val) 

One- sample t - statistic D = 3.247, p- value = 0.0014 

我 们 看 到 p-value 二 0.05, 即 在 给 定 显著 性 水 平 0. 05 的 前 提 下 ,应 拒绝 原 假设 : 数据 的 
均值 为 0。 再 生成 一 组 数据 ,尝试 一 下 双 样 本 的 t 检 验 (ttest_ind); 

norm dist2 = stats.norm(loc= - 0.2, scale=1.2) 

dat2 = norm dist2.rvs(size- n/2) 

stat val, p val = stats.ttest ind(dat, dat2, equal var = False) 

print 'Two- sample t- statistic D = 5$6.3f, p-value = 5*6.4f' * (stat val, p val) 

Two- sample t- statistic D = 4.346, p-value = 0.0000 
注意 ,这 里 生成 的 第 二 组 数据 样本 大 小 、 方 差 和 第 一 组 均 不 相等 ,在 运用 t 检验 时 需要 
使 用 韦 尔 奇 t 检验 (Welch's t-test), 即 指定 ttest_ind 中 的 equal_var 王 False。 同 样 得 到 了 
比较 小 的 p-value, 在 显著 性 水 平 0.05 的 前 提 下 拒绝 原 假设 , 即 认为 两 组 数据 均值 不 等 。 

stats 还 提供 了 大 量 其 他 的 假设 检验 函数 ,如 bartlett 和 levene 用 于 检验 方差 是 否 相 
等 ,anderson_ksamp 用 于 进行 Anderson-Darling 的 K- 样 本 检验 等 。 

3. 其 他 函数 

有 时 需要 知道 某 数值 在 一 个 分 布 中 的 分 位 ,或 者 给 定 了 一 个 分 布 , 求 某 分 位 上 的 数值 。 
这 可 以 通过 cdf 和 ppf 函数 完成 : 


g dist = stats.gamma(a= 2) 

print "quantiles of 2, 4 and 5:" 

print g dist.cdf([2, 4, 5]) 

print "Values of 25%, 50% and 90%:" 
print g dist.pdf([0.25, 0.5, 0.95]) 
quantiles of 2, 4 and 5: 

[0.59399415 0.90842181 0.95957232] 
Values of 25%, 50% and 905: 

[ 0.1947002  0.30326533 0.36740397] 


对 于 一 个 给 定 的 分 布 ,可 以 用 moment 很 方便 地 查看 分 布 的 矩 信 息 , 例 如 查看 N(0,1) 
的 6 阶 原点 矩 : 


stats.norm.moment(6, loc- 0, scale- 1) 
Out[9]: 15.000000000895124 


describe 函数 提供 了 对 数据 集 的 统计 描述 分 析 , 包 括 数据 样本 大 小 、 极 值 ,均值 .方差 、 
偏 度 和 峰 度 : 


norm dist = stats.norm(loc=0, scale=1.8) 
dat = norm dist.rvs(size= 100) 


info = stats.describe(dat) 

print "Data size is: " * str(info[0]) 

print "Minimum value is: " * str(info[1][0]) 
print "Maximum value is: " * str(info[1][1]) 
print "Arithmetic mean is: " * str(info[2]) 
print "Unbiased variance is: " * str(info[3]) 
print "Biased skewness is: " * str(info[4]) 
print "Biased kurtosis is: " * str(info[5]) 
Data size is: 100 

Minimum value is: — 4.41884319577 

Maximum value is: 5.71520945675 

Arithmetic mean is: 0.165282446834 

Unbiased variance is: 3.60309718776 

Biased skewness is: 0.278066378117 

Biased kurtosis is: 0.408791537079 


当 已 知 一 组 数据 服从 某 些 分 布 的 时 候 , 可 以 调用 fit 函数 来 得 到 对 应 分 布 参数 的 极 大 似 
然 估 计 (Maximum-Likelihood Estimation ,MLE)。 假 设 数据 服从 正 态 分 布 ,以 下 代码 可 以 
得 到 分 布 参数 的 极 大 似 然 估计 ， 


norm dist = stats.norm(loc=0, scale= 1.8) 

dat = norm dist.rvs(size- 100) 

mu, sigma = stats. norm. fit(dat) 

print "MLE of data mean:" + str(mu) 

print "MLE of data standard deviation:" + str(sigma) 
MLE of data mean: — 0. 126592501904 

MLE of data standard deviation: 1. 74446062629 


pearsonr 和 spearmanr 函数 可 以 计算 Pearson 和 Spearman 相关 系数 ,这 两 个 相关 系数 
度量 了 两 组 数据 的 线性 关联 程度 


norm dist = stats.norm() 

datl = norm dist.rvs(size- 100) 

exp dist = stats.expon() 

dat2 = exp dist.rvs(size- 100) 

cor, pval = stats.pearsonr(datl, dat2) 

print "Pearson correlation coefficient: " * str(cor) 

cor, pval = stats.spearmanr(datl, dat2) 

print "Spearman's rank correlation coefficient: " * str(cor) 


Pearson correlation coefficient: ~ 0.078269702955 
Spearman's rank correlation coefficient: — 0.0667146714671 


其 中 的 pval 表示 原 假 设 (两 组 数据 不 相关 ) 下 相关 系数 的 显著 性 。 
在 SciPy 中 还 提供 了 金融 数据 分 析 中 使 用 频繁 的 线性 回归 ,下面 是 一 个 例子 : 


x = stats.chi2.rvs(3, size- 50) 

Y= 2.5 * 1.2 * x + stats.norm.rvs(size- 50, loc- 0, scale- 1.5) 
Slope, intercept, r value, p value, std err = stats.linregress(x, y) 
print "Slope of fitted model is:", slope 

print "Intercept of fitted model is:", intercept 


print "R- squared:", r value* *2 


Slope of fitted model is: 1.19360045909 
Intercept of fitted model is: 1.90649803845 
R- squared: 0.787978596903 


4.3 优化 知识 


优化 问题 在 投资 中 可 谓 是 根本 问题 。 如 果 手 上 有 众多 可 选 的 策略 ,应 如 何 从 中 选择 一 
个 最 好 的 策略 进行 投资 呢 ? 这 时 就 需要 利用 一 些 优化 技术 针对 给 定 的 指标 进行 寻 优 。 随 着 
越 来 越 多 的 金融 数据 的 出 现 ,机 器 学 习 逐 渐 应 用 于 投资 领域 ,在 机 器 学 习 中 ,优化 也 是 十 分 
重要 的 一 个 部 分 。 以 下 介绍 一 些 常见 的 优化 方法 。 虽 然 其 中 的 例子 是 人 工 生成 的 ,没有 直 
接应 用 实际 金融 数据 ,但 是 足以 展示 优化 方法 。 和 希望 读者 在 实际 中 遇 到 优化 问题 时 ,能 够 基 
于 这 些 简单 的 例子 迅速 上 手 。 


4.3.1 无 约束 优化 问题 


所 谓 无 约束 优化 问题 指 的 是 一 个 优化 问题 的 寻 优 可 行 集合 是 目标 函数 自 变量 的 定义 
域 , 即 没 有 外 部 的 限制 条 件 。 例 如 ,求解 优化 问题 
Minimize f(x) = zx:—4.8z+1.2 

就 是 一 个 无 约束 优化 问题 ,而 求解 

min f(x)= x:—4.8z+1.2 

St x0 
则 是 一 个 带 约束 的 优化 问题 。 本 节 更 进一步 假设 考虑 的 问题 全 部 是 凸 优化 问题 , 即 目 标 函 
数 是 凸 函 数 ,其 自 变 量 的 可 行 集 是 凸 集 (关于 凸 优化 问题 的 详细 定义 可 参考 斯 坦 福 大 学 
Stephen Boyd 教授 的 教材 Convex Optimization ,下 载 链接 : http://stanford. edu/— boyd/ 
cvxbook)。 


下 面 以 Rosenbrock 函数 
N-1 
f(x) = M aoo; =a dO x*) 
作为 寻 优 的 目标 函数 来 简要 介绍 在 Sci Py 中 使 用 优化 模块 scipy. optimize 的 方法 . 
首先 需要 定义 Rosenbrock 函数 : 


def rosen(x): 
"""The Rosenbrock function""" 
return sum(100.0* (x[1:] x[:—-1]* *2.0)* *2.0 + (1-x[:-1]) * *2.0) 


1. Nelder-Mead 单纯 形 法 

单纯 形 法 是 运筹 学 中 求解 线性 规划 问题 的 通用 方法 ,这 里 的 Nelder-Mead 单纯 形 法 与 
其 并 不 相同 ,只 是 用 到 单纯 形 的 概念 。 设 定 起 始点 x0 二 [0.5,1.6,1.1,0. 8,1.2], 并 进行 最 
小 化 的 寻 优 。 这 里 'xtol' 表 示 和 迭代 收敛 的 容忍 误差 上 界 : 


x 0 = np.array([0.5, 1.6, 1.1, 0.8, 1.2]) 
res = opt.minimize(rosen, x 0, method = 'nelder - mead', options = ('xtol': 1e- 8, 'disp': True]) 
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print "Result of minimizing Rosenbrock function via Nelder - Mead Simplex algorithm:" 
print res 
Optimization terminated successfully. 
Current function value: 0.000000 
Iterations: 436 
Function evaluations: 706 
Result of minimizing Rosenbrock function via Nelder - Mead Simplex algorithm: 


final simplex: (array([[ 1. e d 2 d. "m y oiy J; 
[i MO NEL wd 5 m 
pi: pode zj: Pa k , 0.99999999], 
[i P PR S et at li 
[1. $ 4 2: 35 ck , 1.00000001], 
fà: "ET mE xod , 1.00000001]]), 


array([ 1.66149699e- 17,  6.32117429e- 17,  7.44105349e- 17, 
8.24396866e - 17,  9.53208876e- 17,  1.07882961e- 16])) 
fun: 1.6614969876635003e - 17 


Rosenbrock 函数 的 性 能 比较 好 ,简单 的 优化 方法 就 可 以 处 理 了 ,还 可 以 在 minimize 中 
使 用 method— 'powell 24i 4E fi HH Powell 方法 。 这 两 种 简单 的 方法 并 不 使 用 函数 的 梯度 ， 
在 略微 复杂 的 情形 下 收敛 速度 比较 慢 , 下 面 介 绍 利用 函数 梯度 进行 寻 优 的 方法 。 

2. Broyden-Fletcher-Goldfarb-Shanno 法 


Broyden-Fletcher-Goldfarb-Shanno(BFGS) 法 用 到 了 函数 梯度 信息 。 首 先 求 Rosenbrock PR 
数 的 梯度 : 
N 
200(z — x4), — 22434, 
Tj á m 
= 200 (x; — x£4) — 400z; (zm — z) —2(1— x) 
其 中 , 当 i=j ifd R 09. 一 0。 


边界 的 梯度 是 特例 ,有 如 下 形式 : 
AM 400x, C1 — 2322 — 2(1— xo) 
Zo 
Fa = 200ry — xa) 
X N-1 


梯度 向 量 的 计算 函数 定义 如 下 : 


def rosen der(x): 
xm = x[1:- 1] 
xm ml - x[:- 2] 
x[2:] 
der = np.zeros like(x) 
der[1:- 1] = 200* (xm— xm mi * *2) — 400* (xm pl 一 xm* *2) *xm - 2*(1- xm) 


B 
* 


der[0] = -400*x[0] * (x[1] - x[0] * x2) - 2* (1-x[0]) 
der[-1] = 200* (x[ -1]-x[ -2] * *2) 
return der 


梯度 信息 的 引入 在 minimize 函数 中 通过 参数 jac 指定 : 


res = opt.minimize(rosen, x 0, method = 'BFGS', jac = rosen der, options = ('disp': True]) 
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print "Result of minimizing Rosenbrock function via Nelder - Mead Simplex algorithm:" 
print res 
Optimization terminated successfully. 
Current function value: 0.000000 
Iterations: 436 
Function evaluations: 706 
Result of minimizing Rosenbrock function via Nelder - Mead Simplex algorithm: 


final simplex: (array([[ 1. e d 2 d. "m y oiy J; 
[i MO NEL wd 5 m 
pi: pode zj: Pa k , 0.99999999], 
[i P PR S et at li 
[1. $ 4 2: 35 ck , 1.00000001], 
fà: "ET mE xod , 1.00000001]]), 


array([ 1.66149699e- 17,  6.32117429e- 17,  7.44105349e- 17, 
8.24396866e - 17,  9.53208876e- 17,  1.07882961e- 16])) 
fun: 1.6614969876635003e - 17 


Rosenbrock 函数 的 性 能 比较 好 ,简单 的 优化 方法 就 可 以 处 理 了 ,还 可 以 在 minimize 中 
使 用 method— 'powell 24i 4E fi HH Powell 方法 。 这 两 种 简单 的 方法 并 不 使 用 函数 的 梯度 ， 
在 略微 复杂 的 情形 下 收敛 速度 比较 慢 , 下 面 介 绍 利用 函数 梯度 进行 寻 优 的 方法 。 

2. Broyden-Fletcher-Goldfarb-Shanno 法 


Broyden-Fletcher-Goldfarb-Shanno(BFGS) 法 用 到 了 函数 梯度 信息 。 首 先 求 Rosenbrock PR 
数 的 梯度 : 
N 
200(z — x4), — 22434, 
Tj á m 
= 200 (x; — x£4) — 400z; (zm — z) —2(1— x) 
其 中 , 当 i=j ifd R 09. 一 0。 


边界 的 梯度 是 特例 ,有 如 下 形式 : 
AM 400x, C1 — 2322 — 2(1— xo) 
Zo 
Fa = 200ry — xa) 
X N-1 


梯度 向 量 的 计算 函数 定义 如 下 : 


def rosen der(x): 
xm = x[1:- 1] 
xm ml - x[:- 2] 
x[2:] 
der = np.zeros like(x) 
der[1:- 1] = 200* (xm— xm mi * *2) — 400* (xm pl 一 xm* *2) *xm - 2*(1- xm) 


B 
* 


der[0] = -400*x[0] * (x[1] - x[0] * x2) - 2* (1-x[0]) 
der[-1] = 200* (x[ -1]-x[ -2] * *2) 
return der 


梯度 信息 的 引入 在 minimize 函数 中 通过 参数 jac 指定 : 


res = opt.minimize(rosen, x 0, method = 'BFGS', jac = rosen der, options = ('disp': True]) 
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print "Result of minimizing Rosenbrock function via Broyden — Fletcher - Goldfarb - Shanno algorithm:" 
print res 
Optimization terminated successfully. 

Current function value: 0.000000 
Iterations: 39 
Function evaluations: 47 
Gradient evaluations: 47 
Result of minimizing Rosenbrock function via Broyden - Fletcher - Goldfarb - Shanno algorithm: 
fun: 1.569191726013783e - 14 
hess inv: array([[ 0.00742883, 0.01251316, 0.02376685, 0.04697638, 0.09387584], 
[ 0.01251316, 0.02505532, 0.04784533, 0.094432 ,  0.18862433], 
[.0.02376685, 0.04784533, 0.09594869, 0.18938093, 0.37814437], 
[.0.04697638, 0.094432 ,  0.18938093, 0.37864606, 0.7559884 ], 
[ 0.09387584, 0.18862433, 0.37814437, 0.7559884, 1.51454413]]) 
jac: array([ —3.60424798e- 06,  2.74743159e- 06, - 1.94696995e - 07, 
2.78416205e- 06, | — 1.40985001e- 06]) 
message: 'Optimization terminated successfully. ' 
nfev: 47 
nit: 39 
njev: 47 
status: 0 
success: True 
x: array([ 1. , 1.00000001, 1.00000002, 1.00000004, 1.00000007]) 


ENEI EIJ Jp 

FS ER FE f 75 35 Y A ^F Wt du P6 FE 13: (Newton-Conjugate-Gradient algorithm. , 简称 牛 
顿 法 )。 牛 顿 法 是 收敛 速度 最 快 的 方法 ,其 缺点 在 于 需要 求解 Hessian A PE C— ip Si RUE 
阵 )。 牛 顿 法 大 致 的 思路 是 采用 泰勒 展开 的 二 阶 近似 ,可 使 用 共 思 梯度 近似 Hessian 和 矩阵 的 
MEE. Fih Rosenbrock 函数 的 Hessian 矩阵 元 素 通 式 : 


2 
HG.j-— xL = 200(8,,; — 2; 40,4.) — 4002; Onaj — 2x9,;) — 
T;02Xj; 


4008;,; Crisi — 21) + 207; 
= (202 + 12002? — 400,08, — 40079,,.; 一 400zi-16 ly 
其 中 i,jEL1,N 一 2]。 其 他 边界 上 的 元 素 通 式 为 


2 
2 f — 120022 — 4002, +2 


xi 

iid -= LE 一 一 400zo 
ud -一 一 400xx-2 
zd R — 200 


例如 , 当 N—5 时 的 Hessian 矩阵 为 
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1200zx3 — 4002; +2 — 400a, 0 0 0 
— 4002, 202 + 1200x1 — 4002; — 400zi 0 0 
0 — 400x; 202 + 120025 — 400x; — 400; 0 
0 0 — 4002; 202 + 1200x% — 400r, — 4002; 
0 0 0 — 4002; 200 


为 使 用 牛顿 法 ,需要 提供 一 个 计算 Hessian 矩阵 的 函数 : 


def rosen_hess(x) : 
x = np.asarray(x) 
H = np.diag( - 400* x[ : - 1],1) - np.diag(400*x[:- 1], - 1) 
diagonal = np.zeros like(x) 
diagonal[0] = 1200* x[0]* * 2-400 *x[1] +2 
diagonal[ - 1] = 200 
diagonal[1:-1] = 202 + 1200*x[1:-1]* *2 - 400*x[2:] 
H = H + np.diag(diagonal) 
return H 


调用 上 述 函 数 : 


res = opt.minimize(rosen, x 0, method = 'Newton - CG', jac = rosen der, hess = rosen_hess, 
options = ('xtol': 1e—- 8, 'disp': True]) 
print "Result of minimizing Rosenbrock function via Newton - Conjugate - Gradient algorithm 
(Hessian):" 
print res 
Optimization terminated successfully. 
Current function value: 0.000000 
Iterations: 20 
Function evaluations: 22 
Gradient evaluations: 41 
Hessian evaluations: 20 
Result of minimizing Rosenbrock function via Newton - Conjugate - Gradient algorithm (Hessian): 
fun: 1.47606641102778e - 19 
jac: array([ —3.62847530e- 11, 2.68148992e- 09,  1.16637362e- 08, 
4.81693414e- 08, - 2.76999090e - 08]) 


对 于 一 些 大 型 的 优化 问题 , Hessian 矩阵 将 异常 大 ,牛顿 法 用 到 的 仅 是 Hessian 矩阵 和 
一 个 任意 向 量 的 乘积 ,为 此 ,用 户 可 以 提供 两 个 向 量 ,一 个 是 Hessian 矩阵 和 一 个 任意 向 量 


了 的 乘积 , 另 一 个 是 向 量 p. 这 就 减少 了 存储 的 开销 。 记 向 量 p= poss ps ,可 有 


(120028 — 400z1 + 2) po — 400zxop1** — 400zi pı + (202 + 1200x? — 4004442 p; — 
400d;p ia *** — 400-2 Pn- 十 200pN- 
定义 如 下 函数 并 使 用 牛顿 法 寻 优 : 


def rosen hess p(x, p): 
x 7 np.asarray(x) 
Hp 7 np.zeros like(x) 
Hp[0] = (1200*x[0]* +2 - 400*x[1] + 2) *p[0] - 400* x[0] * p[1] 
Hp[1:-1] = -400*x[:-2]*p[:-2] + (202* 1200  x|1: - 1] * «2-400 * x[2:]) * p[1: - 1] N 
— 400 * x[1:- 1] * p[2:] 
Hp[-1] = -400*x[-2]*p[-2] + 200*p[-1] 
return Hp 


res = opt.minimize(rosen, x 0, method = 'Newton - CG', jac = rosen der, hessp = rosen hess p, 
options = ('xtol': 1e- 8, 'disp': True]) 
print "Result of minimizing Rosenbrock function via Newton — Conjugate - Gradient algorithm 
(Hessian times arbitrary vector):" 
print res 
Optimization terminated successfully. 
Current function value: 0.000000 
Iterations: 20 
Function evaluations: 22 
Gradient evaluations: 41 
Hessian evaluations: 58 
Result of minimizing Rosenbrock function via Newton - Conjugate - Gradient algorithm (Hessian 
times arbitrary vector): 
fun: 1.47606641102778e - 19 
jac: array([ —3.62847530e- 11, — 2.68148992e- 09, 1.16637362e - 08, 
4.81693414e- 08,  - 2.76999090e - 08]) 


4.3.2 有 约束 优化 问题 
有 约束 优化 问题 的 一 种 标准 形式 为 


min f(x) 
s.t. gí(x)x0, i—1,2,-,m 
Ax —b 
其 中 g ,gw: RR H R” 空间 上 的 二 次 可 微 的 凸 函 数 ; A 为 p Xn 和 矩阵 且 秩 rankCA) = 
pn, 
考察 如 下 的 例子 : 
Minimize f(x,y) = 2xy + 2x — x’ — 2y! 
subject to z? — y = 0 
?一 1 之 0 
定义 目标 函数 及 其 导数 为 


def func(x, sign= 1.0): 

""" Objective function """ 

return sign* (2* x[0] *x[1] + 2*x[0] - x[0]* *2 - 2*x[1]* *2) 
def func deriv(x, sign- 1.0): 

""" Derivative of objective function """ 

dfdx0 = sign* (-2*x[0] + 2*x[1] + 2) 

dfdxi = sign* (2*x[0] - 4*x[1]) 

return np.array([ dfdx0, dfdx1 ]) 


其 中 sign 表示 求解 最 小 或 者 最 大 值 。 进 一 步 定 义 约束 条 件 : 


cons = (('type': 'eq', 'fun': lambda x: np.array([x[0] * *3 - x[1]]), 'jac': lambda x: np. 
array([3.0 * (x[0] * *2.0), -1.0])), 
['type': 'ineq', 'fun': lambda x: np.array([x[1] - 1]), 'jac': lambda x: np.array([0.0, 1.0])}) 


最 后 使 用 SLSQP (Sequential Least SQuares Programming optimization algorithm. JF 
贯 最 小 优化 算法 ) 进 行 约束 问题 的 求解 (作为 比较 ,同时 列 出 了 无 约束 优化 的 求解 方法 ): 
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res = opt.minimize(func, [- 1.0, 1.0], args= (- 1. 0,), jac= func deriv, method = 'SLSQP', 
options - ('disp': True]) 
print "Result of unconstrained optimization:" 
print res 
res = opt.minimize(func, [- 1.0, 1.0], args- ( - 1.0,), jac= func deriv, constraints = cons, 
method = 'SLSQP', options = ('disp': True]) 
print "Result of constrained optimization:" 
print res 
Optimization terminated successfully. (Exit mode 0) 
Current function value: - 2.0 
Iterations: 4 
Function evaluations: 5 
Gradient evaluations: 4 
Result of unconstrained optimization: 
fun: -2.0 
jac: array([7-0., -0., 0.]) 
message: 'Optimization terminated successfully. ' 
nfev: 5 
nit: 4 
njev: 4 
status: 0 
success: True 
x: array([ 2., 1.]) 
Optimization terminated successfully. (Exit mode 0) 
Current function value: - 1.00000018311 
Iterations: 9 
Function evaluations: 14 
Gradient evaluations: 9 
Result of constrained optimization: 
fun: — 1.0000001831052137 
jac: array([ - 1.99999982, 1.99999982, 0. ) 
message: 'Optimization terminated successfully. ' 
nfev: 14 
nit: 9 
njev: 9 
status: 0 
success: True 
x: array([ 1.00000009, 1. p 


4.3.3 利用 CVXOPT 求解 二 次 规划 问题 


在 Python 中 除了 可 以 使 用 opt. minimize 工具 处 理 优化 问题 外 ,也 有 其 他 专门 的 优化 
扩展 模块 ,例如 CVXOPT(http://cvxopt. org) 专 门 用 于 处 理 凸 优化 问题 ,在 约束 优化 问题 
上 提供 了 更 多 的 备 选 方法 。CVXOPT 是 著名 的 是 优化 教材 Conver Optimization 的 作者 
之 一 ,加 州 大 学 洛杉矶 分 校 Lieven Vandenberghe 教授 开发 的 ,是 处 理 优化 问题 的 利器 。 

SciPy 中 的 优化 模块 还 有 一 些 特殊 定制 的 函数 ,专门 处 理 能 够 转化 为 优化 求解 的 一 些 
问题 ,如 方程 求 根 、 最 小 方差 拟 合 等 ,可 到 SciPy 官方 网 站 关于 优化 部 分 的 页 面 查看 。 

在 实际 生活 中 经 常会 遇 到 一 些 优化 问题 ,简单 的 线性 规划 可 以 作 图 求解 ,但 是 当 目 标 函 
数 包 含 二 次 项 时 , 则 需要 另 竟 其 他 方法 。 在 金融 实践 中 , 马 科 维 芯 均 方差 模型 就 有 实际 的 二 
次 优化 需求 。 作 为 金融 实践 中 常用 的 方法 ,本 节 对 CVXOPT 中 求解 二 次 规划 的 问题 通过 


Lj 


第 4 章 SciPy 在 量化 金融 投资 分 析 中 的 应 用 


举例 详细 说 明 。 
1. 二 次 规划 问题 的 标准 形式 
二 次 规划 问题 的 标准 形式 如 下 : 
min 1/2x'Px 十 gTx 
s.t. Gx «ch. Ax—b 
上 式 中 ,x 为 所 要 求解 的 列 向 量 ,xz 表示 x 的 转 置 。 
上 式 表明 ,任何 二 次 规划 问题 都 可 以 转化 为 上 式 的 结构 ,事实 上 用 CVXOPT 的 第 一 步 
就 是 将 实际 的 二 次 规划 问题 转换 为 上 式 的 结构 , 写 出 对 应 的 Pg、G、h、A、b。 
目标 函数 若 为 求 max, 可 以 通过 乘 以 一 1 将 最 大 化 问题 转换 为 最 小 化 问题 。 
Gx b 表示 所 有 的 不 等 式 约束 ,同样 , 若 存 在 诸如 x20 的 限制 条 件 , 也 可 以 通过 乘 以 
一 1 转换 为 二 的 形式 。 
Ax—b 表示 所 有 的 等 式 约束 。 
2. 求解 过 程 示例 
二 次 规划 问题 如 下 : 
min 1/2z2z 十 3z 十 4y 
s.t. zy 过 0,z 十 3y 之 15,2z 十 5y 委 100,3z 十 4y 委 80 
在 此 例 中 ,需要 求解 的 是 x、y, 可 以 把 它 写成 向 量 的 形式 ,同时 ,也 需要 将 限制 条 件 按 照 
前 面 介绍 的 标准 形式 进行 调整 ,用 矩阵 形式 表示 ,如 下 所 示 : 


. ijz [1 oz 3T[Iz 

sce» spo sol Gl Gl 
0 
—1 9 = 2 3 o 
[o css dois n 
uisi 100 
80 

如 上 所 示 ,目标 函 数 和 限制 条 件 均 转化 成 了 二 次 规划 问题 的 标准 形式 ,这 是 第 一 步 , 也 
是 最 难 的 一 步 , 接 下 来 就 简单 了 。 


对 比 上 式 和 标准 形式 ,不 难得 出 

0 
0 

1 0 3 a 0 =r 2 3 
ZEE E 

0 0 4 0 —1 —3 5 4 
100 
80 


接 下 来 就 是 几 行 简单 的 代码 ,目的 是 告诉 计算 机 上 面 的 参数 具体 是 什么 。 


from cvxopt import solvers, matrix 

P = matrix([[1.0,0.0],[0.0,0.0]]) £matrix 区 分 int 和 double, 数字 后 要 加 小 数 点 
matrix([3.0,4.0]) 

atrix li- 1.0, 0:0; — 1.0,2.0,3: 0], [0.0, —1.0; —3.0,5.0,4.011) 
matrix([0.0,0.0, —15.0,100.0,80.0]) 


q 
G 
h 


sol = solvers. qp(P,q,G, h) 井 调用 优化 函数 solvers. qp 求解 

print sol['x'] # 打 印 结果 ,sol 里 面 还 有 很 多 其 他 属性 ,读者 可 以 自行 了 解 

得 到 如 下 结果 : 

pcost dcost gap pres dres 

0: 1.0780e+02 -7.6366e* 02 9e*02 1e-16 4e+01 

1: 9.3245e*01  Á9.7637e* 00 8e*01 1e-16 3e+00 

2: 6.7311e* 01 3.2553e*01 3e+01 6e-17 le+00 

3: 2.6071e*01 1.5068e+01 le+01 2e-16 7e-01 

4: 3.7092e*01  2.3152e*01 le+01 2e-16 4e-01 

5: 2.5352e*01  1.8652e*01 7e-*00 8e-17 3e-16 

6: 2.0062e*01  1.9974e* 01 9e-02 6e-17 3e-16 

7: 2.0001e* 01 2.0000e*01 9e-04 6e-17 3e-16 

8: 2.0000e*01  Á2.0000e*01 9e-06 9e-17 2e-16 

Optimal solution found. 

[ 7.13e- 07] 

[ 5.00e * 00] 

可 见 x 二 0.0,y 二 5.0。 上 面 的 代码 很 简单 。 难 点 不 在 于 代码 ,而 是 在 于 将 实际 优化 问 
题 转化 为 标准 形式 的 过 程 。 


在 上 面 的 例子 中 并 没有 出 现 等 号 , 当 出 现 等 式 约束 时 ,过 程 是 一 样 的 ,找到 A、b, 然 后 运 
行 代码 sol— solvers. qdp(P,q,G,h,A,b) 即 可 求解 。 
上 面 定 义 各 个 矩阵 参数 用 的 是 最 直接 的 方式 ,也 可 以 结合 NumPy 来 定义 上 述 矩 阵 。 


from cvxopt import solvers, matrix 

import numpy as np 

P = matrix(np.diag([1.0,0])) # 一 些 特 殊 矩 阵 用 NuuPy 创建 更 方便 (在 本 例 中 区 别 不 大 ) 
q = matrix(np.array([3.0,4])) 

G = matrix(np.array([[ - 1.0,0],[0, -1],[ - 1, -3,[2,51, [3,4]])) 

h = matrix(np.array([0.0,0, — 15,100,80])) 

sol = solvers.qp(P,q,G, h) 

print sol['x'] 


得 到 如 下 结果 : 
pcost dcost gap pres dres 

0: 1.0780e*02 - 7.63666 * 02 9e+02 1e-16 4e*01 
1: 9.3245e*01 9.7637e* 00 8e*01 1e-16 3e*00 
2: 6.7311e* 01 3.2553e*01 3e*01 6e-17 le+00 
3: 2.6071e* 01 1.5068e*01 1e*01 2e-16 7e-01 
4: 3.7092e*01 2.3152e*t01 le+01 2e-16 4e-01 
5: 2.5352e*01 1.8652e*01 7e*00 8e-17 3e-16 
6: 2.0062e*01 1.9974e*01 9e-02 6e-17 3e-16 
7: 2.0001e*01 2.0000e*01 9e-04 6e-17 3e-16 
8: 2.0000e*01 2.0000e*01 9e-06 9e-17 2e-16 


Optimal solution found. 
[ 7.13e- 07] 
[ 5.00e + 00] 


3. CVXOPT 在 投资 组 合 中 的 应 用 
投资 组 合 优化 就 是 要 解决 如 下 问题 


1 Ein) 

1 EG) 
注意 ,这 里 的 yw 之 x=E(rp) ,例如 p=0.13。 其 中 1=| . |,e=| |. 

1 EG; 


min Tr 十 gx 


s.t. Gr<h, Ax 一 
先 给 出 下 列 3 个 资产 数据 表 : 


sl s2 b 
0 0.07 0.06 
0.04 0.13 0.07 
0.13 0.14 0.05 
0.19 0.43 0.04 
-0.15 0.67 0.07 
-0.27 0.64 0.08 
0.37 0.00 0.06 
0.24 -0.22 0.04 
-0.07 0.18 0.05 
0.07 0.31 0.07 
0.19 0.59 0.10 
0.33 0.99 0.11 
一 人 05 -0.25 0.15 
0.22 0.04 0.11 
0.23 -0.11 0.09 
0.06 700.15 0.10 
0.32 -0.12 0.08 
0.19 0.16 0.06 
0.05 0.22 0.05 
0.17 -0.02 0.07 


根据 上 面 的 资产 数据 表 求 得 协 方差 矩阵 为 


0.05212 —0.02046 - 0.00026 
| —0.02046 0.20929 - 0. von 
一 0.00026 —0.00024 0.00147 


3 个 资产 的 均值 为 : 0. 1130 ,一 0. 1850.0. 0755, 
由 此 ,编制 如 下 Python 代码 来 求 3 个 资产 的 投资 比例 ,使 3 个 资产 组 成 的 资产 组 合 风 
险 最 小 化 。 


from cvxopt import solvers, matrix 

P-matrix([[0. 05212, — 0. 02046, — 0. 00026], [ — 0. 02046, 0. 20929, — 0. 00024], [ - 0. 00026, 
— 0. 00024,0.00147]]) 

q7nmatrix([0.0,0.0,0.0]) 

A-matrix([[1.0],[1.0],[1.0]]) 

b= matrix([1.0]) 

G-7 matrix([[ — 1.0,0.0,0.0,1.0,0.0,0.0, — 0.1130], [0. 0, — 1. 0,0. 0,0.0,1.0,0.0, — 0.1850], 
[0.0,0.0, = 1.0,0.0,0.0,1.0, — 0.0755]]) 

h = matrix([0.0,0.0,0.0,1.0,1.0,1.0, — 0.13]) 

sol = solvers.qp(P,q,G,h,A,b)  # 调 用 优化 函数 solvers.qp 求 解 


print sol['x'] # 打 印 结果 ,sol 里 面 还 有 很 多 其 他 属性 
print sol 
得 到 如 下 结果 : 

pcost dcost gap pres dres 
0: 1.1276e- 02 -3.3616e* 00 1e*01 2e+00 4e-01 
1: 1.3759e- 02 -1,5235e*t 00 2e*t00 2e-02 5e-03 
2: 1.6416e- 02 -7.0537e- 02 9e-02 1e-03 3e-04 
3: 1.5256e-02  7.2943e- 03 8e-03 9e-05 2e-05 
4: 1.4367e- 02 1.3910e- 02 5e-04 6e-07 1e-07 
5: 1.4314e- 02 1.4309e- 02 5e-06 6e-09 1e- 09 
6: 1.4314e- 02 1.4314e- 02 5e-08 6e-11 1e-11 
Optimal solution found. 
[ 5.06e- 01] 
[ 3.24e- 01] 
[ 1.69e- 01] 


('status': 'optimal', 'dual slack': 1.806039796747772e - 09, 'iterations': 6, 'relative gap': 
3.683302827853541e - 06, 'dual objective': 0.014313726166982559, 'gap': 5.272178806796808e - 
08, 'primal objective': 0.01431377886845612, 'primal slack': 1.1767433021045898e - 08, 's': 
<7xl matrix, tc- 'd'2, 'primal infeasibility': 5.899080906312396e- 11, 'dual infeasibility': 
1.4865206484913074e - 11, 'y': « 1xl matrix, tc = 'd'», 'x': <3xl matrix, tc = 'd'», 'z': «7x1 
matrix, tc= 'd'>} 


可 见 资产 1 投资 比例 为 51%, 资 产 2 投资 比例 为 32% ,资产 3 投资 比例 为 17% ,最 小 方 
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练习 题 


对 本 章 中 例题 的 数据 ,使 用 Python 重新 操作 一 遍 。 


ed 2 结 
pandas 的 基本 数据 结构 


e © o 


使 -ee-e 


5.1 pandas 介绍 


pandas 是 Python 在 数据 处 理 方 面 功能 最 为 强大 的 扩展 模块 。 在 处 理 实际 的 金融 数据 
时 ,一 条 数据 通常 包含 了 多 种 类 型 的 数据 ,例如 ,在 一 条 股票 数据 中 ,股票 的 代码 是 字符 串 ， 
收盘 价 是 浮 点 型 ,而 成 交 量 是 整 型 ,等 等 。 在 C++ 中 可 以 实现 以 一 个 给 定 结构 体 作 为 单元 的 
容器 ,如 向 量 (vector,C++ 中 的 特定 数据 结构 )。 在 Python 中 ,pandas 包含 了 高 级 的 数据 结 
Tj Series 和 DataFrame, 使 得 在 Python 中 处 理 数 据 变 得 非常 方便 ,快速 和 简单 。 

pandas 不 同 的 版 本 之 间 存 在 一 些 不 兼容 性 ,为 此 ,需要 清楚 使 用 的 是 哪 一 个 版 本 的 
pandas。 查 看 pandas 版 本 的 操作 如 下 : 

import pandas as pd 

pd. version . 

Out[27]: u'0.18.1' 

pandas 最 主要 的 两 个 数据 结构 是 Series 和 DataFrame.5. 2 45 5. 3 节 将 介绍 如 何 由 
其 他 类 型 的 数据 结构 得 到 这 两 种 数据 结构 ,或 者 自行 创建 这 两 种 数据 结构 。 首 先导 入 
Series 和 DataFrame 以 及 相关 模块 : 


import numpy as np 
from pandas import Series, DataFrame 


5.2 pandas 数据 结构 : Series 


从 一 般 意义 上 来 讲 , 可 以 简单 地 将 Series 视 为 一 维 数组 。Series 和 一 维 数组 最 主要 的 
区 别 在 于 Series 类 型 具有 索引 (index) ,可 以 和 编程 中 常见 的 另 一 个 数据 结构 一 一 哈 希 
(Hash) 联 系 起 来 。 


5.2.1 创建 Series 
创建 Series 的 基本 格式 是 


S = Series(data, index = index, name = name) 
以 下 给 出 几 个 创建 Series 的 例子 。 首 先 介 绍 如 何 从 数组 创建 Series: 


a = np.random.randn(5) 
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print "a is an array:" 
printa 

S 7 Series(a) 

print "s is a Series:" 
print s 

a is an array: 
[1.5708724  —2.51990028 - 0.8213732 0.28692464 - 1.72725827] 
s is a Series: 

0 1.570872 

1 — 2.519900 

2 — 0.821373 

3 0.286925 

4 — 1.727258 

dtype: float64 


可 以 在 创建 Series 时 添加 index, 并 可 使 用 Series. index 查看 具体 的 index。 需 要 注意 
的 一 点 是 , 当 从 数组 创建 Series 时 , 若 指 定 index, 那 么 index 的 长 度 要 和 data 的 长 度 一 致 。 
例如 : 


S = Series(np.random.randn(5)，index= ['a', 'b', 'c', 'd', 'e']) 


prints 

s. index 

a 0.059366 
b 1.232519 
c 0.318299 
d 1.083609 
e 0.732492 


dtype: float64 
Out[30]: Index([u'a', u'b', u'c', u'd', u'e'], dtype- 'object') 


创建 Series 的 另 一 个 可 选项 是 name, 可 指定 Series 的 名 称 , 可 用 Series. name 访问 。 
将 5. 3 节 要 介绍 的 DataFrame 中 每 一 列 的 列 名 单独 取出 来 就 成 了 Series 的 名 称 : 


S = Series(np. random. randn(5)，index = ['a', 'b', 'c', 'd', 'e'], name= 'my series') 
print s 

print s. name 

a 0. 428730 

b -0.896439 

c  —1.988758 

d -0.581281 

e -0.373745 

Name: my_series, dtype: float64 
my_series 


Series 还 可 以 从 字典 (dict) 创 建 : 


da ('a': 0., Dr er 2) 
print "d is a dict:" 

printd 

S 7 Series(d) 

print "s is a Series:" 


print s 

d is a dict: 

(W00; wr We 
sisaSeries: 


a 0.0 
b 1.0 
c 2.0 


dtype: float64 
下 面 是 使 用 字典 创建 Series 时 指定 index 的 情形 (index 的 长 度 不 必 和 字 上 典 相同 ): 


Series(d, index- ['b', 'c', 'd', 'a']) 


Out[33]: 
b 1.0 
c 2.0 
d NaN 
a 0.0 


dtype: float64 


从 中 可 以 观察 到 两 点 : 一 是 在 使 用 字典 创建 的 Series 中 ,数据 将 按 index 的 顺序 重新 
排列 ; 二 是 index 长 度 可 以 和 字典 长 度 不 一 致 ,如 果 index 更 长 ,pandas 将 自动 为 多 余 的 
index 分 配 NaNCNot a Number, pandas 中 缺失 值 的 标准 记号 ), 反 之 就 截 去 一 部 分 字典 
内 容 。 

如 果 数 据 就 是 一 个 单一 的 变量 ,如 数字 4, 那 么 Series 将 重复 这 个 变量 : 


Series(4.，index= ['a', 'b', 'c', 'd', 'e']) 
Out[34] : 

a 4.0 

b 4.0 

c 4.0 

d 4.0 

e 4.0 
dtype: float64 


5.2.2 Series 数据 的 访问 


访问 Series 数据 可 以 像 数 组 一 样 使 用 下 标 ,也 可 以 像 字 典 一 样 使 用 索引 ,还 可 以 使 用 一 
些 条 件 过 滤 : 


S = Series(np.random. randn(10), index- ['a', 'b', 'c', 'd', 'e', '£', 'g', 'h', 'i', 'j']) 
s[0] 

Out[35]: 0.31498252804717486 
s[:2] 

a 0.314983 

b 0.927704 

dtype: float64 

s[[2,0,4]] 

e —1.687516 

a 0.314983 

e  —1.081195 


dtype: float64 


s[L'e', i1] 
Out[38]: 

e 71.081195 
E — 0. 284862 
dtype: float64 
s[s» 0.5] 
Out[39]: 

b 0.927704 
d 0.620080 
£ 1.434256 
h 0.512448 
dtype: float64 
'e'ins 
Out[40]: True 


5.3 pandas 数据 结构 : DataFrame 


在 使 用 DataFrame 之 前 , 先 说 明 一 下 DataFrame 的 特性 。DataFrame 是 将 数 个 Series 
按 列 合 并 而 成 的 二 维 数据 结构 ,每 一 列 单独 取出 来 是 一 个 Series, 这 和 SQL 数据 库 中 取出 
的 数据 是 很 类 似 的 ,所 以 , 按 列 对 一 个 DataFrame 进行 处 理 更 为 方便 ,用 户 在 编程 时 注意 形 
成 按 列 构建 数据 的 思维 方式 。DataFrame 的 优势 在 于 可 以 方便 地 处 理 不 同类 型 的 列 , 因 此 ， 
就 不 要 考虑 如 何 对 一 个 全 是 浮 点 数 的 DataFrame 求 逆 之 类 的 问题 了 ,处 理 这 种 问题 还 是 把 
数据 存 成 NumPy 的 matrix 类 型 比较 便利 。 


5.3.1 创建 DataFrame 


首先 来 看 如 何 从 字典 创建 DataFrame。DataFrame 是 一 个 二 维 的 数据 结构 ,是 多 个 
Series 的 集合 体 。 首 先 创建 一 个 值 是 Series 的 字典 ,并 转换 为 DataFrame: 


d = ('one': Series([1., 2., 3.], index- ['a', 'b', 'c']), 'two': Series([1., 2., 3., 4.], index- 
['a', 'b', 'c', 'd'])} 
df = DataFrame(d) 
print df 
one two 
a 1.0 1.0 
b 2.0 2.0 
c 3.0 3.0 
d NaN 4.0 


可 以 指定 所 需 的 行 和 列 , 若 字典 中 不 含有 对 应 的 元 素 , 则 置 为 NaN: 


df = DataFrame(d, index= ['r', 'd', 'a'], columns = [ 'two', 'three']) 


print df 

two three 
r NaN NaN 
d 4.0 NaN 


a 1.0 NaN 
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可 以 使 用 dataframe. index 和 dataframe. columns 来 查看 DataFrame 的 行 和 列 , dataframe 
.values 则 以 数组 的 形式 返回 DataFrame 的 元 素 : 


print "DataFrame index:" 
print df. index 

print "DataFrame columns:" 
print df.columns 

print "DataFrame values:" 
print df. values 


DataFrame index: 

Index([u'r', u'd', u'a'], dtype- 'object') 
DataFrame columns: 

Index([u'two', u'three'], dtype = 'object') 
DataFrame values: 

[[nan nan] 

[4.0 nan] 

[1.0 nan]] 


DataFrame 也 可 以 从 值 是 数组 的 字典 创建 ,但 是 各 个 数组 的 长 度 应 相同 + 


d s ("me [1.7 2., 3. ed 3., 2., 3. 1] 
df = DataFrame(d, index- ['a', 'b', 'c', 'd']) 

print df 

one two 

1.0 4.0 

2.0 3.0 

3.0 2.0 

4.0 1.0 


值 非 数 组 时 ,没有 这 一 限制 ,并 且 缺 失 值 置 为 NaN : 


d= [('a': 1.6, 'b': 2), ('a': 3, 'b': 6, 'c': 9)] 
df = DataFrame(d) 
print df 
a b e 
0 1.6 2 NaN 
1.3.0 6 9.0 


在 实际 处 理 数据 时 ,有 时 需要 创建 一 个 空 的 DataFrame, 方 法 如 下 : 


df = DataFrame() 
print df 

Empty DataFrame 
Columns: [] 
Index: [] 


另 一 种 创建 DataFrame 的 方法 十 分 有 用 ,. 那 就 是 使 用 concat 函数 基于 Series 或 者 
DataFrame 创建 一 个 DataFrame: 


Do ww 


a 
b 


Series(range(5)) 
Series(np.linspace(4, 20, 5)) 
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df = pd.concat([a, b], axis=1) 


print df 

0 1 
00 4.0 
1 1 8:0 
2 2 32.0 
3 3 16.0 
4 4 20.0 


其 中 的 axis 1 表示 按 列 合 并 ,axis 一 0 表示 按 行 合并 ,并 且 Series 都 处 理 成 一 列 , 所 以 这 里 
如 果 选 axis=0, 将 得 到 一 个 10X1 的 DataFrame。 下 面 这 个 例子 展示 了 如 何 将 DataFrame 
按 行 合并 成 一 个 大 的 DataFrame: 


df = DataFrame() 

index = ['alpha', 'beta', 'gamma', 'delta', 'eta'] 

for i in range(5) : 
a = DataFrame([np.linspace(i, 5* i, 5)], index- [index[i]]) 
df = pd.concat([df, a], axis- 0) 


print df 

0 1 2 3 4 
alpha 0.0 0.0 0.0 0.0 0.0 
beta 1.0 2.0 3.0 4.0 5.0 
gamma 2.0 4.0 6.0 80 10.0 
delta 3.0 6.0 29.0 12.0 15.0 
eta 4.0 8.0 12.0 16.0 20.0 


5.3.2 DataFrame 数据 的 访问 


首先 ,再 次 强调 一 下 DataFrame 是 以 列 作为 操作 基础 的 ,全 部 操作 都 可 以 视 为 先 从 
DataFrame 里 取 一 列 ,成 为 一 个 Series, 再 从 这 个 Series 中 取 元 素 。 可 以 用 dataframe 
.column_name 选取 列 ,也 可 以 用 dataframe[] 选 取 列 ,前 一 种 方法 只 能 选取 一 列 , 而 后 一 种 
方法 可 以 选取 多 列 。 若 DataFrame 没有 列 名 ,在 [] 中 可 以 使 用 非 负 整数 ,也 就 是 通过 “下 
标 ” 选 取 列 ; 车 有 列 名 , 则 必须 使 用 列 名 选取 ,另外 dataframe. column. name 在 没有 列 名 的 
时 候 是 无 效 的 : 


print df[1] 

print type(df[1]) 

df.columns = ['a', 'b', 'c', 'd', 'e'] 
print df['b'] 

print type(df[ 'b']) 

print df.b 

print type(df.b) 

print df[['a', 'd']] 

print type(df[['a', 'd']]) 


alpha 0.0 
beta 2.0 
gamma 4.0 
delta 6.0 


eta 8.0 


单独 
Data 
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Name: 1, dtype: float64 
<class 'pandas. core. series. Series'> 


alpha 0.0 
beta 2.0 
gamma 4.0 
delta 6.0 
eta 8.0 


Name: b, dtype: float64 
<class 'pandas. core. series. Series'> 


alpha 0.0 
beta 2.0 
gamma 4.0 
delta 6.0 
eta 8.0 


Name: b, dtype: float64 


<class 'pandas. core. series. Series'> 


a d 
alpha 0.0 0.0 
beta 1.0 4.0 
gamma 2.0 8.0 
delta 3.0 12.0 
eta 4.0 16.0 


<class 'pandas. core. frame. DataFrame'> 


以 上 代码 使 用 了 df. columns( 即 dataframe. columns) Jy DataFrame 赋 列 名 ,可 以 看 到 ， 
取 一 列 出 来 时 ,其 数据 结构 显示 的 是 Series, 而 取 两 列 及 两 列 以 上 的 结果 仍然 是 
Frame。 访 问 特 定 的 元 素 可 以 像 Series 一 样 使 用 下 标 或 者 索引 : 

print df['b'][2] 

print df['b'][ 'gamma'] 

4.0 

4.0 


若 需 要 选取 行 ,可 以 使 用 dataframe. iloc 按 下 标 选 取 , 或 者 使 用 dataframe. loc 按 索 引 


选取 : 


print df. iloc[1] 
print df.loc['beta'] 


a 1.0 
b 2.0 
c 3,0 
d 4.0 
e 5.0 
Name: beta, dtype: float64 
a 1.0 
b 2.0 
c 3.0 
d 4.0 
e 5.0 


Name: beta, dtype: float64 
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选取 行 还 可 以 使 用 切片 的 方式 或 者 布尔 类 型 的 向 量 : 


print "Selecting by slices:" 
print df[1:3] 
bool vec = [True, False, True, True, False] 
print "Selecting by boolean vector:" 
print df[bool vec] 
Selecting by slices: 

a b ẹ d e 
beta 1.0 2.0 3.0 4.0 5.0 
gamma 2.0 4.0 6.0 8.0 10.0 
Selecting by boolean vector: 

a b e d e 
alpha 0.0 0.0 0.0 0.0 0.0 
gama 2.0 4.0 6.0 8.0 10.0 
delta 3.0 6.0 9.0 12.0 15.0 


将 行列 组 合 起 来 选取 数据 : 


print df[['b', 'd']]. iloc[[1, 3]] 

print df. iloc[[1, 3]][['b', 'd']] 

print df[['b', 'd']].loc[['beta', 'delta']] 

print df.loc[['beta', 'delta']][['b', 'd']] 
b d 


beta 2. 
delta 6. 


如 果 不 需 要 访问 特定 行列 ,而 只 是 需要 访问 某 个 特殊 位 置 的 元 素 , dataframe. iat 和 
dataframe. at 是 最 快 的 方式 ,它们 分 别 用 于 使 用 下 标 和 索引 进行 访问 : 


print df. iat[2, 3] 

print df.at['gamma', 'd'] 
8.0 

8.0 


dataframe. ix 可 以 混合 使 用 索引 和 下 标 进行 访问 ,唯一 需要 注意 的 是 行列 内 部 应 一 致 ， 
不 可 以 同时 使 用 索引 和 下 标 访问 ,否则 会 得 到 意外 的 结果 : 


oorvooyryoogrvoo 
oonoonoonoo 


12. 


print df. ix[ 'gamma', 4] 

print df. ix[['delta', 'gamma'], [1, 4]] 
print df. ix[[1, 2], ['b', 'e']] 

print "Unwanted result:" 

print df. ix[ ['beta', 2], ['b', 'e']] 


print df. ix[[1, 2], ['b', 4]] 
10.0 
b e 
delta 6.0 15.0 
gamma 4.0 10.0 
b e 
beta 2.0 5.0 
gamma 4.0 10.0 
Unwanted result: 


b e 
beta 2.0 5.0 
2 NaN NaN 
b 4 


beta 2.0 NaN 
gamma 4.0 NaN 


练习 题 


对 本 章 中 的 例题 数据 ,使 用 Python 重新 操作 一 遍 。 


“ pandas 在 金融 数据 处 理 


w 
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在 第 5 章 中 介绍 了 如 何 创 建 并 访问 pandas 的 Series 和 DataFrame 类 型 的 数据 ,本 音准 
介绍 如 何 对 pandas 数据 进行 操作 ,掌握 这 些 操 作 之 后 ,就 可 以 处 理 大 多 数 的 数据 了 。 
首先 导入 本 章 中 使 用 的 模块 : 


import numpy as np 
import pandas as pd 
from pandas import Series, DataFrame 


为 了 查看 数据 方便 一 些 , 要 设置 输出 屏幕 的 宽度 : 


pd. set_option( 'display. width'，200) 


6.1 创建 数据 结构 的 方式 


数据 结构 的 创建 不 只 是 第 5 章 中 介绍 的 标准 方式 。 例 如 ,可 以 创建 一 个 以 日 期 为 元 素 
的 Series: 


dates = pd.date range('20170101', periods = 5) 

print dates 

DatetimeIndex([ '2017 — 01 — 01', '2017 - 01 - 02', '2017 - 01 - 03', '2017 - 01 - 04', '2017 - 01 - 05], 
dtype- 'datetime64[ns]', freq- 'D') 


将 这 个 日 期 Series 作为 索引 赋 给 一 个 DataFrame: 


df = pd.DataFrame(np. random. randn(5, 4), index = dates, columns = list( 'ABCD')) 
print df 
A B C D 

2017-01-01 -1.255929 1.308361 -1.119820 - 0.486524 
2017-01-02 -0.155901 -0.096743 0.452969  — 0.246108 
2017-01-03 -0.014116 -0.754056 0.480347 -2.677346 
2017-01-04 -1.864881 -1.246534 -0.222377 -0.104438 

2017- 01-05 0. 363992 0. 597859 1.897772 0.643010 


只 要 是 能 转换 成 Series 的 对 象 ,都 可 以 用 于 创建 DataFrame: 


df2 = pd.DataFrame(( 'A': 1., 'B': pd. Timestamp('20170214'), 'C': pd. Series(1.6, index = 
list(range(4)),dtype- 'float64'), 'D': np.array([4] * 4, dtype- 'int64'), 'E': 'hello pandas! ']) 
print df2 


A B c D E 
0 2017-02-14 1.6 4 hello pandas! 
i 2017-02-14 1.6 4 hello pandas! 
2 2017-02-14 1.6 4 hello pandas! 
3 2017-02-14 1.6 4 hello pandas! 


6.2 数据 的 查看 


在 多 数 情况 下 ,数据 并 不 由 分 析 数 据 的 人 员 生 成 ,而 是 通过 数据 接口 外 部 文件 或 者 其 
他 方式 获取 。 这 里 通过 优 矿 量化 投资 平台 (注意 : 后 面 所 有 的 代码 需要 在 优 矿 平台 环境 下 
运行 ) 的 数据 接口 获取 一 份 数据 作为 示例 : 


stock list = ['000001.XSHE', '000002.XSHE', '000568. XSHE', '000625. XSHE', '000768.XSHE', 
'600028.XSHG', '600030.XSHG', '601111.XSHG', '601390.XSHG', '601998.XSHG'] 

raw data = DataAPI.MktEqudGet(secID- stock list, beginDate = '20170101', endDate = '20170131', 
pandas = '1") 

df = raw data[['secID', 'tradeDate', 'secShortName', 'openPrice', 'highestPrice', 'lowestPrice', 
'closePrice', 'turnoverVol']] 


以 上 代码 获取 了 2017 年 1 月 全 部 交易 日 内 10 只 股票 的 日 行情 信息 ,首先 看 一 下 数据 
的 大 小 : 


print df. shape 
(180, 8) 


可 以 看 到 有 180 行 ,表示 获取 了 180 条 记录 ,每 条 记录 有 8 个 字段 ,现在 预览 一 下 数据 ， 
用 dataframe. head() 和 dataframe. tail() 可 以 查看 数据 的 开头 5 行 和 结尾 5 行 , 若 需要 改变 
行 数 ,可 在 括号 内 指定 : 


print "Head of this DataFrame:" 
print df. head( ) 
print "Tail of this DataFrame:" 
print df. tail(3) 
Head of this DataFrame: 
secID tradeDate secShortName openPrice highestPrice lowestPrice closePrice turnoverVol 


0 000001.XSHE 2017-01-03 平安 银行 9.11 9.18 9.09 9.16 45984049 
1 000001.XSHE 2017-01-04 平安 银行 9.15 9.18 9.14 9.16 44932953 
2 000001.XSHE 2017- 01- 05 平安 银行 9.17 9.18 9.15 9.17 34437291 
3 000001. XSHE 2017- 01 - 06 平安 银行 9.17 9.17 9.11 9.13 35815420 
4 000001.XSHE 2017- 01- 09 平安 银行 9.13 9.17 9.11 9.15 36108157 


Tail of this DataFrame: 

secID tradeDate secShortName openPrice highestPrice lowestPrice closePrice turnoverVol 
177 601998. XSHG 2017 — 01 - 24 中 信和 银行 6.91 6.97 6.87 6.93 24045549 
178 601998. XSHG 2017 - 01 - 25 中 信和 银行 6.91 6.95 6.86 6.92 19225348 
179 601998.XSHG 2017- 01-26 中 信和 银行 6.92 7.02 6.90 6.98 28835194 


dataframe. describe( ) 提 供 了 DataFrame 中 纯 数值 数据 的 统计 信息 : 


print df. describe() 
openPrice highestPrice lowestPrice closePrice turnoverVol 


» 
(96. 量化 金融 投资 及 其 Python & 


count 180.000000 180.000000 180.000000 180.000000 1.800000e * 02 
mean 14.581500 14.776889 14.460778 14.738722 4.533562e * 07 
std 8.614973 8.748181 8.521703 8.571332 4.960937e * 07 
min 0.000000 0.000000 0.000000 5.510000 0.000000e * 00 
25% 7.440000 7.535000 7.362500 7.495000 1.826569e + 07 
50 % 9.270000 9.350000 9.255000 12.190000 3.004691e + 07 
75% 20.685000 20.857500 20.532500 20.682500 4.918019e * 07 
max 34.430000 35.220000 34.350000 34.550000 3.286121e + 08 


对 数据 排序 有 利于 我 们 观察 数据 。DataFrame 提供 了 两 种 排序 形式 。 一 种 形式 是 按 行 
列 排 序 , 即 按照 索引 ( 行 名 ) 或 者 列 名 进行 排序 ,可 调用 dataframe. sort. index 函数 ,参数 
axis 一 0 表示 按 索 引 ( 行 名 ) 排 序 ,axis 一 1 表示 按 列 名 排序 ,并 可 指定 升序 或 者 降序 : 

print "Order by column names, descending:" 


print df.sort index(axis = 1, ascending = False).head() 


Order by column names, descending: 


turnoverVol tradeDate secShortName  secID openPrice lowestPrice  highestPrice closePrice 
0 45984049 2017-01-03 平安 银行 000001.XSHE 9.11 9.09 9.18 9.16 
1 44932953 2017-01-04 平安 银行 000001.XSHE 9.15 9.14 9.18 9.16 
2 34437291 2017-01-05 平安 银行 000001.XSHE 9.17 9.15 9.18 9.17 
3 35815420 2017-01-06 平安 银行 000001.XSHE 9.17 9.11 9.17 9.13 
4 36108157 2017-01-09 平安 银行 000001.XSHE 9.13 9.11 9.17 9.15 


另 一 种 形式 是 按 值 排序 ,可 指定 列 名 和 排序 方式 ,默认 的 是 升序 : 


print "Order by column value, ascending:" 
print df.sort(columns = 'tradeDate'). head() 
print "Order by multiple columns value:" 

df = df.sort(columns = ['tradeDate', 'secID'], ascending- [False, True]) 
print df.head() 
Order by column value, ascending: 
secID tradeDate secShortName openPrice highestPrice lowestPrice closePrice turnoverVol 


36 


000001.XSHE 
601390. XSHG 
601998. XSHG 
601111.XSHG 
000568. XSHE 


2017-01-03 
2017 - 01 - 03 
2017 - 01 - 03 
2017 - 01 - 03 
2017-01-03 


Order by multiple columns value: 
secID tradeDate secShortName openPrice highestPrice lowestPrice closePrice turnoverVol 


17 
35 
53 
71 
89 


000001.XSHE 
000002. XSHE 
000568. XSHE 
000625. XSHE 
000768. XSHE 


2017-01-26 
2017-01-26 
2017-01-26 
2017-01-26 
2017-01-26 


6.3 数据 的 访问 和 操作 
6. 3.1 再 谈 数据 的 访问 


在 第 5 章 中 已 经 介绍 了 使 用 loc iloc at\iat ix 以 及 [] 访 问 DataFrame 数据 的 几 种 方 
式 , 这 里 再 介绍 一 种 方法 ,即使 用 *:? 来 获取 全 部 行 或 者 全 部 列 : 


平安 银行 9.11 
中 国 中 铁 8.84 

6.44 
中 航 7.18 
WME 33.15 
平安 银行 9.27 
万 科 A 20.65 
泸州 老 窗 33.92 
长 安 汽车 15.70 
中 航 飞 机 23.23 


9.18 
9.00 
6.76 
7.25 
33.39 


9.34 
20.77 
34.05 
15.94 
23.80 


9.09 9.16 45984049 
8.81 8.93 45718952 
6.42 6.75 69857877 
7.18 7.21 15429974 
33.07 33.20 4971389 


9.26 
20.65 
33.32 
15.67 
23.21 


9.33 42071258 
20.68 14124823 
33.69 4570555 
15.78 23921475 
23.59 25356233 


print df. iloc[1:4][:] 

secID tradeDate secShortName openPrice highestPrice lowestPrice closePrice turnoverVol 
35 000002.XSHE 2017- 01 - 26 HEA 20.65 20.77 20.65 20.68 14124823 
53 000568.XSHE — 2017-01-26 VADE 33.92 34.05 33.32 33.69 4570555 
TE 000625. XSHE — 2017-01-26 长 安 汽车 15.70 15.94 15.67 15.78 | 23921475 


对 第 5 章 介 绍 的 使 用 布尔 类 型 的 向 量 获 取 数 据 的 方法 进行 扩展 ,可 以 很 方便 地 过 滤 数 
例如 ,要 选 出 收盘 价 在 均值 以 上 的 数据 : 


print df[df.closePrice > df.closePrice.mean()].head() 

SecID tradeDate secShortName openPrice highestPrice lowestPrice closePrice turnoverVol 
35 000002.XSHE — 2017-01-26 万 科 有 20.65 20.77 20.65 20.68 14124823 
53 000568.XSHE 2017 - 01 - 26 VER 33.92 34.05 33.32 33.69 4570555 
71 000625.XSHE 2017 - 01 - 26 长 安 汽车 15.70 15.94 15.67 15.78 23921475 
89 000768.XSHE 2017 - 01 - 26 中 航 飞 机 23.23 23.80 23.21 23.59 25356233 
125 600030.XSHG 2017- 01 - 26 中 信 证 券 16.43 16.56 16.43 16.48 46823371 


isin O 函数 可 方便 地 过 滤 DataFrame 中 的 数据 : 


print df[df['secID'].isin(['601628.XSHG', '000001.XSHE', '600030. XSHG']) ]. head() 
print df.shape 

SecID tradeDate secShortName openPrice highestPrice lowestPrice closePrice turnoverVol 
17  000001.XSHE 2017-01-26 平安 银行 9.27 9.34 9.26 09.33 42071258 
125 600030.XSHG 2017-01-26 中 信 证 券 16.43 16.56 16.43 16.48 46823371 
16  000001.XSHE 2017-01-25 平安 银行 9.27 9.28 9.25 9.26 30440196 
124 600030.XSHG 2017-01-25 中 信 证 券 16.38 16.39 16.32 16.39 32219153 
15  000001.XSHE 2017-01-24 平安 银行 9.23 9.28 9.20 9.27 47024408 
(180, 8) 


6.3.2 处理 缺失 数据 
在 访问 数据 的 基础 上 ,可 以 更 改 数据 。 例 如 ,修改 某 些 元 素 为 缺失 值 : 


df['openPrice'][df['secID'] -- '000001.XSHE'] = np.nan 
df[ 'highestPrice'][df[ 'secID'] '601111.XSHG'] = np.nan 
df['lowestPrice'][df['secID'] == '601111.XSHG'] = np.nan 
df['closePrice'][df['secID'] == '000002.XSHE'] = np.nan 
df['turnoverVol'][df['secID'] == '601111.XSHG'] = np.nan 


print df.head(10) 
secID tradeDate secShortName openPrice highestPrice lowestPrice closePrice turnoverVol 
17  000001.XSHE 2017-01-26 平安 银行 NaN 9.34 9.26 9.33 42071258.0 


35  000002.XSHE 2017-01-26 万 科 A 20.65 20.77 20.65 NaN 14124823. 0 
53 000568. XSHE 2017-01-26 MĚ 33.92 34.05 33.32 33.69 4570555. 0 
71  000625.XSHE 2017-01-26 长 安 汽车 15.70 15.94 15.67 15.78 23921475.0 
89  000768.XSHE 2017-01-26 中 航 飞机 23.23 23.80 23.21 23.59 25356233.0 
107 600028.XSHG 2017-01-26 6.09 5.97 6.03 88310889. 0 
125 600030.XSHG 2017- 01 - 26 16.56 16.43 16.48 46823371.0 


143 601111.XSHG 2017-01-26 
161 601390.XSHG 2017-01-26 
179 601998.XSHG 2017-01-26 


NaN NaN 3.58. NaN 
8.94 8.81 8.86 31151871.0 
7.02 6.90 6.98 28835194.0 


print df. iloc[1:4][:] 

secID tradeDate secShortName openPrice highestPrice lowestPrice closePrice turnoverVol 
35 000002.XSHE 2017- 01 - 26 HEA 20.65 20.77 20.65 20.68 14124823 
53 000568.XSHE — 2017-01-26 VADE 33.92 34.05 33.32 33.69 4570555 
TE 000625. XSHE — 2017-01-26 长 安 汽车 15.70 15.94 15.67 15.78 | 23921475 


对 第 5 章 介 绍 的 使 用 布尔 类 型 的 向 量 获 取 数 据 的 方法 进行 扩展 ,可 以 很 方便 地 过 滤 数 
例如 ,要 选 出 收盘 价 在 均值 以 上 的 数据 : 


print df[df.closePrice > df.closePrice.mean()].head() 

SecID tradeDate secShortName openPrice highestPrice lowestPrice closePrice turnoverVol 
35 000002.XSHE — 2017-01-26 万 科 有 20.65 20.77 20.65 20.68 14124823 
53 000568.XSHE 2017 - 01 - 26 VER 33.92 34.05 33.32 33.69 4570555 
71 000625.XSHE 2017 - 01 - 26 长 安 汽车 15.70 15.94 15.67 15.78 23921475 
89 000768.XSHE 2017 - 01 - 26 中 航 飞 机 23.23 23.80 23.21 23.59 25356233 
125 600030.XSHG 2017- 01 - 26 中 信 证 券 16.43 16.56 16.43 16.48 46823371 


isin O 函数 可 方便 地 过 滤 DataFrame 中 的 数据 : 


print df[df['secID'].isin(['601628.XSHG', '000001.XSHE', '600030. XSHG']) ]. head() 
print df.shape 

SecID tradeDate secShortName openPrice highestPrice lowestPrice closePrice turnoverVol 
17  000001.XSHE 2017-01-26 平安 银行 9.27 9.34 9.26 09.33 42071258 
125 600030.XSHG 2017-01-26 中 信 证 券 16.43 16.56 16.43 16.48 46823371 
16  000001.XSHE 2017-01-25 平安 银行 9.27 9.28 9.25 9.26 30440196 
124 600030.XSHG 2017-01-25 中 信 证 券 16.38 16.39 16.32 16.39 32219153 
15  000001.XSHE 2017-01-24 平安 银行 9.23 9.28 9.20 9.27 47024408 
(180, 8) 


6.3.2 处理 缺失 数据 
在 访问 数据 的 基础 上 ,可 以 更 改 数据 。 例 如 ,修改 某 些 元 素 为 缺失 值 : 


df['openPrice'][df['secID'] -- '000001.XSHE'] = np.nan 
df[ 'highestPrice'][df[ 'secID'] '601111.XSHG'] = np.nan 
df['lowestPrice'][df['secID'] == '601111.XSHG'] = np.nan 
df['closePrice'][df['secID'] == '000002.XSHE'] = np.nan 
df['turnoverVol'][df['secID'] == '601111.XSHG'] = np.nan 


print df.head(10) 
secID tradeDate secShortName openPrice highestPrice lowestPrice closePrice turnoverVol 
17  000001.XSHE 2017-01-26 平安 银行 NaN 9.34 9.26 9.33 42071258.0 


35  000002.XSHE 2017-01-26 万 科 A 20.65 20.77 20.65 NaN 14124823. 0 
53 000568. XSHE 2017-01-26 MĚ 33.92 34.05 33.32 33.69 4570555. 0 
71  000625.XSHE 2017-01-26 长 安 汽车 15.70 15.94 15.67 15.78 23921475.0 
89  000768.XSHE 2017-01-26 中 航 飞机 23.23 23.80 23.21 23.59 25356233.0 
107 600028.XSHG 2017-01-26 6.09 5.97 6.03 88310889. 0 
125 600030.XSHG 2017- 01 - 26 16.56 16.43 16.48 46823371.0 


143 601111.XSHG 2017-01-26 
161 601390.XSHG 2017-01-26 
179 601998.XSHG 2017-01-26 


NaN NaN 3.58. NaN 
8.94 8.81 8.86 31151871.0 
7.02 6.90 6.98 28835194.0 


原始 数据 中 很 可 能 存在 一 些 数 据 缺 失 ,就 如 同 现在 处 理 的 这 个 样 例 数据 一 样 。 处 理 缺 
失 数 据 有 多 种 方式 ,通常 使 用 dataframe. dropna()。 该 函数 可 以 按 行 丢 弃 带 有 NaN 的 数 
据 。 若 指定 hows 'all'( 默 认 是 'any'), 则 只 在 整 行 全 部 是 NaN 时 丢弃 数据 ; 若 指定 thresh 
参数 值 , 则 表示 当 某 行 数据 非 缺失 值 的 个 数 超过 指定 值 时 才 保 留 。 要 指定 针对 某 列 丢 弃 可 
以 通过 设置 subset 参数 完成 。 


print "Data size before filtering:" 
print df. shape 
print "Drop all rows that have any NaN values:" 
print "Data size after filtering:" 
print df.dropna().shape 
print df.dropna().head(10) 
print "Drop only if all columns are NaN:" 
print "Data size after filtering:" 
print df. dropna( how = 'all').shape 
print df. dropna(how = 'all'). head(10) 
print "Drop rows who do not have at least six values that are not NaN" 
print "Data size after filtering:" 
print df.dropna(thresh- 6). shape 
print df.dropna(thresh- 6). head(10) 
print "Drop only if NaN in specific column:" 
print "Data size after filtering:" 
print df.dropna(subset = [ 'closePrice']). shape 
print df.dropna(subset = [ 'closePrice']). head(10) 
Data size before filtering: 
(180, 8) 
Drop all rows that have any NaN values: 
Data size after filtering: 
(126, 8) 
SecID tradeDate secShortName openPrice highestPrice lowestPrice closePrice turnoverVol 
53 000568. XSHE 2017-01-26 MÆ 33.92 34.05 33.32 33.69  4570555.0 
71 000625. XSHE 2017 - 01 - 26 15.70 15.94 15.67 15.78 23921475. 
89 000768. XSHE 2017 - 01 - 26 23.23 23.80 23.21 23.59 25356233. 
107 600028. XSHG 2017 - 01 - 26 6.05 6.09 5.97 6.03 88310889. 
125 600030. XSHG 2017 - 01 - 26 16.43 16.56 16.43 16.48 46823371. 
161 601390. XSHG 2017 - 01 - 26 8.89 8.94 8.81 8.86 31151871. 
179 601998. XSHG 2017 - 01 -26 6.92 7.02 6.90 6.98 28835194. 
52 000568. XSHE 2017-01-25 34.28 34.40 33.87 33.93 5961607. 
70 000625. XSHE 2017-01-25 15.56 15.73 15.53 15.70 18900772. 
88 000768. XSHE 2017-01-25 23.16 23.41 22.90 23.18 18600092. 
Drop only if all columns are NaN: 
Data size after filtering: 
(180, 8) 
secID tradeDate secShortName openPrice highestPrice lowestPrice closePrice turnoverVol 
17  000001.XSHE 2017-01-26 平安 银行 。 NaN 9.34 9.26 9.33 42071258.0 
35 000002. XSHE 2017 - 01 - 26 LES 20.65 20.77 20.65 NaN 14124823.0 
53 000568. XSHE 2017-01-26 MÆ% 33.92 34.05 33.32 33.69 4570555.0 


入 和 和 pnooo o 


000625. XSHE 
000768. XSHE 
600028. XSHG 
600030. XSHG 
601111.XSHG 
601390. XSHG 
601998. XSHG 


2017-01-26 
2017-01-26 
2017-01-26 
2017 -01- 26 
2017 - 01 - 26 
2017 - 01 - 26 
2017 - 01 - 26 


第 6 章 pandas 在 金融 数据 处 理 中 的 应 用 


15.94 15.67 
23.80 23.21 
6.09 5.97 
16.56 16.43 

NaN NaN 
8.94 8.81 
7.02 6.90 


Drop rows who do not have at least six values that are not NaN 


Data size after filtering: 


(162, 8) 
secID tradeDate secShortName openPrice highestPrice lowestPrice closePrice turnoverVol 
17 000001. XSHE 2017-01-26 平安 银行 NaN 9.34 9.26 9.33  42071258.0 
35 000002. XSHE 2017 - 01 - 26 20.65 20.77 20.65 NaN 14124823.0 
53 000568. XSHE 2017 — 01 - 26 33.92 34.05 33.32 33.69 4570555.0 
71 000625. XSHE 2017 — 01 - 26 15.70 15.94 15.67 15.78  23921475.0 
89 000768. XSHE 2017 — 01 - 26 23.23 23.80 23.21 23.59  25356233.0 
107 600028. XSHG 2017 - 01 - 26 6.05 6.09 5.97 6.03  88310889.0 
125 600030. XSHG 2017 - 01 - 26 16.43 16.56 16.43 16.48 46823371. 0 
161 601390. XSHG 2017 - 01 - 26 8.89 8.94 8.81 8.86 31151871. 0 
179 601998. XSHG 2017 - 01 - 26 6.92 7.02 6.90 6.98 28835194. 0 
16 000001. XSHE 2017-01-25 NaN 9.28 | 9.25 9.26  30440196.0 
Drop only if NaN in specific column: 
Data size after filtering: 
(162, 8) 
SecID tradeDate secShortName openPrice highestPrice lowestPrice closePrice turnoverVol 
17 000001.XSHE 2017-01-26 平安 银行 NaN 9.34 9.26 9.33  42071258.0 
53 000568. XSHE 2017-01-26 MÆ 33.92 34.05 33.32 33.69 4570555.0 
71 000625. XSHE 2017-01-26 长 安 汽车 15.70 15.94 15.67 15.78  23921475.0 
89 000768. XSHE 2017-01-26 中 航 飞机 23.23 23.80 23.21 23.59  25356233.0 
107 600028. XSHG 2017 - 01 -26 6.05 6.09 5.97 6.03  88310889.0 
125 600030. XSHG 2017 - 01 - 26 16.43 16.56 16.43 16.48  46823371.0 
143 601111. XSHG 2017 - 01 - 26 7.59 NaN NaN 7.58 NaN 
161 601390. XSHG 2017-01-26 8.89 8.94 8.81 8.86 31151871.0 
179 601998. XSHG 2017 - 01 - 26 6.92 7.02 6.90 6.98 28835194. 0 
16 000001. XSHE 2017-01-25 NaN 9.28 | 9.25 9.26  30440196.0 


有 数据 缺失 时 也 不 是 只 能 丢弃 ,dataframe. fillna(value 王 value) 可 以 指定 填补 缺失 值 的 


数值 : 


print df.fillna(value = 20170101). head() 


17 
35 
53 
71 
89 


secID tradeDate secShortName openPrice highestPrice lowestPrice closePrice turnoverVol 


000001.XSHE 2017-01-26 平安 银行 20170101.00 9.34 


000002.XSHE 2017-01-26 万 科 A 

000568.XSHE 2017-01-26 MEF 
000625.XSHE 2017-01-26 长 安 汽车 
000768.XSHE 2017-01-26 中 航 飞 机 


20.65 
33.92 
15.70 
23.23 


20.77 
34.05 
15.94 
23.80 


23921475. 
25356233. 
88310889. 
46823371. 
NaN 
31151871.0 
28835194.0 


oooo 


9.26 9.33 42071258.0 
20.65 20170101.00 14124823.0 
33.32 33.69 4570555.0 
15.67 15.78 23921475.0 
23.21 23.59 25356233.0 


59] 
~J 


6.3.3 数据 操作 


Series 和 DataFrame 提供 了 一 些 函 数 , 如 mean() 、sum() 等 ,参数 为 0 时 按 列 进行 ,为 1 
时 按 行进 行 : 


df = raw data[['secID', 'tradeDate', 'secShortName', 'openPrice', 'highestPrice', 'lowestPrice', 
'closePrice', 'turnoverVol']] 

print df.mean(0) 

openPrice 1.458150e-* 01 

highestPrice 1.477689e-* 01 

lowestPrice 1.446078e+ 01 

closePrice 1.473872e + 01 

turnoverVol 4.533562e + 07 

dtype: float64 


value. counts PR Zt n] LA 7; fito 5c i] As RC s 


print df['closePrice'].value counts().head() 
9,15 4 

6.92 3 

Mob" -3 

5.86 3 

7.41 3 

Name: closePrice, dtype: int64 


TE pandas 中 ,Series 可 以 调用 map PAROK XI fi 26 2€ HH — P PR JC. DataFrame 可 以 
调用 apply 函数 对 每 一 列 ( 行 ) 应 用 一 个 函数 ,applymap 对 每 个 元 素 应 用 一 个 函数 。 这 里 面 
的 函数 可 以 是 用 户 自 定 义 的 函数 (如 lambda) ,也 可 以 是 已 有 的 其 他 函数 。 下 例 展示 了 将 收 
盘 价 调整 到 [0, 1] 区 间 的 操作 : 


print df[['closePrice']].apply(lambda x: (x — x.min()) / (x.max() — x.min())).head() 
closePrice 

0.125689 

0.125689 

0.126033 

0.124656 

0.125344 


使 用 append 可 以 在 Series 后 添加 元 素 以 及 在 DataFrame 尾部 添加 一 行 : 


awn 口 


datl = df[['secID', 'tradeDate', 'closePrice']].head() 
dat2 = df[['secID', 'tradeDate', 'closePrice']]. iloc[2] 
print "Before appending:" 
print datl 
dat = datl.append(dat2, ignore index = True) 
print "After appending:" 
print dat 
Before appending: 
secID tradeDate closePrice 
0 000001.XSHE 2017-01-03 9.16 


000001. XSHE 
000001. XSHE 
000001. XSHE 
000001. XSHE 
After appending: 
secID 
000001. XSHE 
000001. XSHE 
000001. XSHE 
000001. XSHE 
000001. XSHE 
000001. XSHE 


WwW NB n 


wm wm 


REPRISE: 第 6 章 panda 在 全 融 数 据 处 理 中 的 应 用 
2017-01-04 9.16 
2017-01-05 9,17 
2017 - 01 - 06 9.13 
2017 - 01 - 09 9.15 


tradeDate closePrice 
2017 - 01 - 03 9.16 


2017-01-04 9.16 
2017-01-05 9.17 
2017 - 01 - 06 9.13 
2017 - 01 - 09 9.15 
2017-01-05 9.17 


DataFrame 可 以 像 在 SQL 中 一 样 进行 合并 ,在 第 5 章 中 介绍 了 使 用 concat 函数 创建 
DataFrame 的 方法 ,这 是 一 种 合并 的 方式 。 另 一 种 方式 使 用 merge 函数 ,需要 指定 依照 哪些 
列 进行 合并 。 下 例 展示 了 如 何 根据 security ID 和 交易 日 合并 数据 


datl = df[['secI 
dat2 = df[['secIl 


D', 'tradeDate', 'closePrice']] 
D', 'tradeDate', 'turnoverVol']] 


dat = datl.merge(dat2, on- ['secID', 'tradeDate']) 
print "The first DataFrame:" 
print datl.head() 


print "The second 


DataFrame:" 


print dat2.head() 


print "Merged Dat; 
print dat. head() 


aFrame:" 


The first DataFrame: 


secID 
000001.XSHE 
000001. XSHE 
000001.XSHE 
000001.XSHE 
000001.XSHE 


&UNM^PGO 


tradeDate closePrice 
2017-01-03 9.16 
2017 - 01 - 04 9.16 
2017 - 01 - 05 9.17 
2017 - 01 - 06 9.13 
2017 - 01 - 09 9.15 


The second DataFrame: 


secID 
000001.XSHE 
000001.XSHE 
000001.XSHE 
000001.XSHE 
000001.XSHE 
Merged DataFrame: 

secID 
000001.XSHE 
000001.XSHE 
000001.XSHE 
000001.XSHE 
000001.XSHE 


wb -oo 


必 w N PP 口 


tradeDate turnoverVol 
2017-01-03 45984049 
2017-01-04 44932953 
2017 - 01-05 34437291 
2017 - 01 - 06 35815420 
2017 - 01 - 09 36108157 


tradeDate closePrice turnoverVol 
2017-01-03 9.16 45984049 
2017-01-04 9.16 44932953 
2017-01-05 9.17 34437291 
2017-01-06 9.13 35815420 
2017-01-09 9.15 36108157 


DataFrame 另 一 个 强大 的 函数 是 groupby, 可 以 十 分 方便 地 对 数据 进行 分 组 处 理 。 下 


面 对 2017 年 1 月 内 


10 只 股票 的 开盘 价 、 最 高 价 、 最 低 价 ,收盘 价 和 成 交 量 求 平均 值 : 


df grp = df.groupby( secID') 
grp mean = df grp.mean() 
print grp mean 


secID openPrice highestPrice lowestPrice closePrice turnoverVol 
000001.XSHE 9.167222 9.206111 9.147222 9.183889 42384770 
000002. XSHE 19.621111 19.854444 19.421111 20.762222 27112457 
000568. XSHE 33.832222 34.300556 33.489444 33.896667 7529140 
000625. XSHE 15.317222 15.479444 15.211111 15.355556 23232071 
000768. XSHE 22.679444 23.173889 22.450556 22.825556 29611870 
600028. XSHG 5.821111 5.928333 5.770556 5.866111 160547667 
600030. XSHG 16.218333 16.340556 16.154444 16.248333 56254473 
601111.XSHG 7.439444 7.544444 7.390556 7.472118 24419952 
601390. XSHG 8.937222 9.046111 8.850556 8.952222 50983587 
601998. XSHG 6.781667 6.895000 6.722222 6.823889 31280176 


如 果 和 硕 望 取 每 只 股票 的 最 新 数据 ,应 该 怎么 操作 呢 ? drop duplicates 可 以 实现 这 个 功 
能 ,首先 对 数据 按 日 期 排序 ,再 按 security ID 去 重 : 


df2 = df.sort(columns = ['secID', 'tradeDate'], ascending = [True, False]) 
print df2.drop duplicates(subset - 'secID') 
secID tradeDate secShortName openPrice highestPrice lowestPrice closePrice turnoverVol 
17  000001.XSHE 2017-01-26 平安 银行 9.27 9.34 9.26 9.33 42071258 
35 000002. XSHE 2017 - 01 - 26 20.65 20.77 20.65 20.68 14124823 
53 000568. XSHE 2017-01-26 33.92 34.05 33.32 33.69 4570555 
71 000625. XSHE 2017 - 01 - 26 15.70 15.94 15.67 15.78 23921475 
89 000768. XSHE 2017 - 01 - 26 23.23 23.80 23.21 23.59 25356233 
107 600028. XSHG 2017 - 01 - 26 6.05 6.09 5.97 6.03 88310889 
125 600030. XSHG 2017 - 01 - 26 16.43 16.56 16.43 16.48 46823371 
143 601111. XSHG 2017 — 01 - 26 7,59 7.61 7,55 7.58 12725431 
161 601390. XSHG 2017 - 01 - 26 8.89 8.94 8.81 8.86 31151871 
179 601998. XSHG 2017 - 01 - 26 6.92 7.02 6.90 6.98 28835194 


若 想 要 保留 最 老 的 数据 ,可 以 在 降序 排列 后 取 最 后 一 个 记录 ,这 通过 指定 take last = 
True( 默 认 值 为 False, 这 时 取 第 一 条 记录 ) 可 以 实现 : 


print df2. drop_duplicates( subset = 'secID', take last = True) 
secID tradeDate secShortName openPrice highestPrice lowestPrice closePrice turnoverVol 
0 000001.XSHE 2017-01-03 平安 银行 9.11 9.18 9.09 9.16 45984049 
18  000002.XSHE 2017-01-03 万 科 A 20.55 20.88 20.55 20.73 21701669 
36  000568.XSHE 2017-01-03 MES 33.15 33.39 33.07 33.20 4971389 
54  000625.XSHE — 2017-01-03 长 安 汽车 14.99 15.16 14.94 15.10 15548141 
72 000768.XSHE 2017-01-03 中 航 飞 机 21.38 22.31 21.35 22.14 30387484 
90  600028.XSHG — 2017-01-03 中 国 石化 5.42 5.52 5.40 5.51 102820610 
108 600030.XSHG 2017-01-03 中 信 证 券 16.08 16.23 16.04 16.19 62306948 
126  601111.XSHG 2017-01-03 中 国 国航 7.18 7.25 7.18 7.21 15429974 
144  601390.XSHG 2017-01-03 中 国 中 铁 8.84 9.00 8.81 8.93 45718952 


第 6 章 pandas 在 金融 数据 处 理 中 的 应 用 


162  601998.XSHG 2017-01-03 中 信 银 行 6.44 6.76 | 6.42 6.75 69857877 


6.4 数据 可 视 化 


pandas 数据 直接 可 以 绘图 展示 。 下 例 中 采用 中 国 石化 2017 年 1 月 的 收盘 价 进 行 绘 
图 ,其 中 set. indexC'tradeDate? [ 'closePrice' ]d& zR f. DataFrame 的 'tradeDate' 这 一 列 作为 索 
引 , 将 'closePrice' 这 一 列 作为 Series 的 值 , 返 回 一 个 Series 对 象 .随后 调用 plot 函数 绘图 。 
更 多 的 参数 可 以 查看 matplotlib 帮助 文档 。 


dat = df[df['secID'] == '600028.XSHG']. set_index('tradeDate')[ 'closePrice'] 
dat.plot(title = "Close Price of SINOPEC (600028) during Jan, 2017") 


可 得 到 如 图 6-1 所 示 的 图 形 。 

"T Close Price of SINOPEC(600028)during Jan,2017 
6.0 
5.9 
5.8 


5.7 


5.6 


5.5 " " n 


" " " n 


tradeDate 
图 6-1 中 国 石化 2017 年 1 月 收盘 价 图 


练习 题 


对 本 章 中 的 例题 数据 ,使 用 Python 重新 操作 一 遍 。 
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-/ 金融 时 间 序 列 分 析 及 其 
$ 375. Python 应 用 
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7.1 时 间 序 列 分 析 的 基础 知识 
7.1.1 时 间 序 列 的 概念 及 其 特征 


对 某 一 个 或 者 一 组 变量 x(7) 进 行 观察 测量 ,将 在 一 系列 时 刻 ,ts，… stn PEPERIT 
数字 组 成 的 序列 集合 称 为 时 间 序 列 。 例 如 , 某 股票 从 2015 年 6 月 1 日 到 2016 年 6 月 1 日 
之 间 各 个 交易 日 的 收盘 价 可 以 构成 一 个 时 间 序 列 , 某 地 每 天 的 最 高 气温 可 以 构成 一 个 时 间 
序列 。 

时 间 序 列 具 有 以 下 特征 : 

CD 趋势 : 在 长 时 期 内 呈现 出 持续 向 上 或 持续 向 下 的 变动 。 

(2) 季节 变动 : 在 一 年 内 重复 出 现 的 周期 性 波动 。 如 气候 条 件 、 生 产 条 件 、 节 假日 或 人 
们 的 风俗 习惯 等 各 种 因素 影响 的 结 

(3) 循环 波动 : 呈现 非 辐 定 长 度 的 周期 性 变动 。 循环 波动 的 周期 可 能 会 持续 一 段 时 
间 , 但 与 趋势 不 同 , 它 不 是 朝 着 单一 方向 的 持续 变动 ,而 是 涨 落 相同 的 交替 波动 。 

(4) 不 规则 波动 : 除去 趋势 .季节 变动 和 周期 波动 之 后 的 随机 波动 的 时 间 序 列 。 不 规 
则 波动 通常 总 是 混杂 在 时 间 序 列 中 ,致使 时 间 序 列 产生 一 种 波浪 形 或 震荡 式 的 变动 。 只 含 
有 随机 波动 的 序列 也 称 为 平稳 序列 。 


7.1.2 平稳 性 


如 果 一 个 时 间 序 列 的 均值 没有 系统 性 的 变化 (无 趋势 ) 方差 没有 系统 性 的 变化 , 且 严 格 
消除 了 周期 性 变化 ,就 说 它 是 平稳 的 。 

先 通过 如 下 代码 生成 图 7-1 

IndexData = DataAPI. MktIdxdGet (indexID = u"", ticker = u" 000001", beginDate = u" 20130101", 

endDate = u"20140801", field = u"tradeDate, closeIndex, CHGPct" , pandas = "1") 

IndexData = IndexData.set index(IndexData[ 'tradeDate']) 

IndexData['colseIndexDiff 1'] = IndexData['closeIndex'].diff(1) #1 阶 差分 处 理 

IndexData[ 'closeIndexDiff 2'] = IndexData['colseIndexDiff 1'].diff(1) #2 阶 差分 处 理 

IndexData. plot( subplots = True, figsize = (18,12)) 

图 7-1 中 第 一 张 图 为 上 证 综合 指数 部 分 年 份 的 收盘 指数 ,是 一 个 非 平稳 时 间 序 列 ,而 下 
面 两 张 图 为 平稳 时 间 序 列 。 

可 以 发 现 , 下 面 两 张 图 实际 上 是 对 第 一 个 序列 做 了 差分 处 理 ,方差 和 均值 基本 平稳 ,成 
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7 — colseindexDiff 1 
ja 
Ey $ D "3 t Ej 
P" js "a | "S " Ps " 


vodeDate 


7-1 时 间 序 列 


为 了 平稳 时 间 序 列 , 后 面 会 介绍 这 种 处 理 。 
下 面 给 出 平稳 性 的 定义 : 
如 果 对 所 有 的 时 刻 +\ 任 意 正 整数 & 和 任意 & MERR G stoot 0 Gn ory ory) 
的 联合 分 布 与 CHrer ,r+4) 的 联合 分 布 相 同 ,就 称 时 间 序 列 {r,) 是 强 平稳 的 。 即 
Gr, so， oT) 的 联合 分 布 在 时 间 的 平移 变换 下 保持 不 变 。 这 是 一 个 很 强 的 条 件 , 而 我 们 
经 常 假定 的 是 平稳 性 的 一 个 较 弱 的 方式 。 
车 时 间 序 列 {x,} 满 足下 面 两 个 条 件 : 
Er) = 二 jy， 是 常数 
Cov(r sr) — rn. x 只 依赖 于 1/ 
则 称 时 间 序 列 {x,} 是 弱 平 稳 的 。 即 该 序列 的 均值 和 7 与 7,-, 的 协 方差 不 随时 间 而 改变 ,i 为 
任意 整数 。 
在 金融 数据 分 析 中 ,通常 所 说 的 平稳 序列 是 弱 平稳 的 。 
差分 就 是 求 时 间 序 列 {x,}) 在 1 时刻 的 值 7, 与 1 一 1 时 刻 的 值 7,-1 的 差 ,不 妨 记 做 d, ,这样 
就 得 到 了 一 个 新 序列 {d,) ,为 一 阶 差 分 。 对 新 序列 {d,} 再 做 同样 的 操作 , 则 为 二 阶 差分 。 通 
常 非 平稳 序列 可 以 经 过 d 次 差分 ,处 理 成 弱 平稳 或 者 近似 弱 平 稳 时 间 序 列 。 如 图 7-1 第 4 
张 图 所 示 , 可 以 看 到 二 阶 差分 得 到 的 序列 比 一 阶 差 分 效果 更 好 。 


7.1.3 相关 系数 和 自 相 关 函 数 
1. 相关 系数 


对 于 两 个 向 量 ,如何 确定 它们 是 不 是 相关 ? 一 个 很 自然 的 想法 就 是 用 向 量 之 间 的 夹 角 
作为 距离 的 定义 一 一 夹 角 小 ,距离 就 小 ; 夹 角 大 ,距离 就 大 。 
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在 中 学 数学 中 ,经 常 使 用 余弦 公式 来 计算 角度 : 


cos < a.b >= Ts 


a* b 称 为 内 积 。 例 如 : 
Gri yi. (£232) = aiaxe + yi ye 
再 来 看 相关 系数 的 定义 公式 。X 和 YY 的 相关 系数 为 
- Cov(X,Y) 
ft Var Var? 
而 根据 样本 的 估计 计算 公式 为 


T 
2j 3,75 


Rie 

可 以 发 现 , 相 关系 数 实际 上 就 是 向 量 空间 中 两 个 向 量 的 夹 角 , 协 方差 是 去 掉 均值 后 两 个 
向 量 的 内 积 。 

如 果 两 个 向 量 平行 ,相关 系数 等 于 1( 同 向 ) 或 者 一 1( 反 向 )。 如 果 两 个 向 量 垂直 , 则 夹 
角 的 余弦 就 等 于 0, 说 明 二 者 不 相关 。 两 个 向 量 夹 角 越 小 ,相关 系数 的 绝对 值 越 接近 1, 相 关 
性 越 高 。 只 不 过 这 里 在 计算 的 时 候 对 向 量 做 了 去 均值 处 理 , 即 中 心 化 操作 ,而 不 是 直接 用 向 
dt XY 计算 。 减 去 均值 并 不 影响 角度 计算 ,是 一 种 “平移 "操作 。 通 过 如 下 代码 得 到 如 图 7-2 
所 示 的 图 形 。 


(X—2-:Q-» 
"Ta«-21ii*y-5»1 


Pw 一 


import numpy as np 

import pandas as pd 

import matplotlib.pyplot as plt 
a 7 pd.Series([9,8,7,5,4,2]) 
b = a- a.mean() # 去 均值 
plt.figure(figsize- (10,4)) 

a. plot(label- 'a') 

b. plot( label = 'mean removed a') 
plt. legend( ) 


一 & 
一 mean removed a 


2. 自 相关 函数 

相关 系数 度量 了 两 个 向 量 的 线性 相关 性 ,而 在 平稳 时 间 序 列 {x,}) 中 ,我 们 有 时 候 很 想 知 
iB 与 它 的 过 去 值 7,-, 的 线性 相关 性 。 为 此 把 相关 系数 的 概念 推广 到 自 相关 系数 。 

7 与 7,-, 的 相关 系数 称 为 ,的 间隔 为 1 的 自 相关 系数 ,通常 记 为 p,。 具 体 定义 为 


Cov(r ria? Cov(r, rii) 
; MV VarGr,) VarGr;) Var(r,) 


这 里 用 到 了 弱 平稳 序列 的 性 质 : 
Var(r,) = Var(ria) 
对 一 个 平稳 时 间 序 列 的 样本 {x,) ,1 志 t 志 TT, 则 间隔 为 1 的 样本 自 相关 系数 的 估计 为 
» G,—P)G4—rP 
ô = =; E E n 
Dor 
t=1 
则 函数 
DEONORES 
称 为 r APEZ EL AR OE ER C Autocorrelation Function: ACF). 
当 自 相关 函数 中 所 有 的 值 都 为 0 时 , 则 认为 该 序列 是 完全 不 相关 的 。 因 此 ,经 常 需要 检 
验 多 个 自 相 关系 数 是 否 为 0。 
混成 检验 (Ljung-Box) 如 下 : 
原 假设 : Hosp, — p, = —p, —0 
备 择 假 设 : Hi 3i€1.2.-.m.p70 
混成 检验 统计 量 : 
Qm) = TOT + 2j "- 
QCm) 渐 进 服从 自由 度 为 到 的 X 分布 。 
决策 规则 : 
Qn) > Ls 拒绝 Ho 
BI QOM EKF A rl BED m HX? 分 布 100(1 一 o) 分 位 点 时 ,拒绝 Hz 
大 部 分 软件 会 给 出 Qn) B p-value, W 4 p-value 小 于 等 于 显著 性 水 平 a 时 拒绝 Ho. 
下 面 给 出 示例 : 


from scipy import stats 


import statsmodels.api as sm # 统 计 相关 的 库 
data = IndexData[ 'closeIndex'] 井上 证 指数 
m = 10 # 检验 10 个 自 相关 系数 


acf,q,p = sm.tsa.acf(data,nlags- m, qstat = True) # 计 算 自 相关 系数 及 p-value 
out = np.c [range(1,11), acf[1:], q, pl 

output = pd. DataFrame(out, columns = ['lag', "AC", "Q", "p- value"]) 

output = output.set index( 'lag') 

Output 

AC Q p- value 

lag 


$ 0.977190 366.688991 9.842648e - 82 
2 0.951513 715.277906 .779432e - 156 
3 0.927073 1047.065270 .109192e - 226 
4 0.902993 1362.675600 565497e - 294 
5 0.878258 1662.026278 000000e * 00 
6 0.857131 1947.908436 000000e * 00 
7 0.836825 2221.134260 000000e * 00 
8 0.812991 2479. 709003 . 000000e + 00 
9 0.789723 2724.350491 . 000000e + 00 
0.766245 2955. 283132 0.000000e * 00 


oooooonsnes 


取 显 著 性 水 平 为 0.05, 可 以 看 出 ,所 有 的 p-value 都 小 于 0. 05 ,拒绝 原 假 设 Ho «BIA Dy 


该 序列 是 序列 相关 的 。 
再 来 看 看 同期 上 证 指数 的 日 收益 率 序 列 : 
data2 = IndexData[ 'CHGPct'] 井上 证 指数 日 涨 跌 
m = 10 # 检 验 10 个 自 相关 系数 


acf,q,p = sm.tsa.acf(data2,nlags- m,qstat- True) # 计 算 自 相关 系数 及 p-value 
out = np.c_[range(1,11), acf[1:], q, p] 

output = pd. DataFrame(out, columns = ['lag', "AC", "Q", "p- value"]) 

output = output.set index('lag') 

output 


AC Q p- value 


lag 
1 0.065275 1.636181 0.200850 
2 — 0.014772 1.720198 0.423120 
3 — 0.022254 1.911387 0.591001 
4 0.008070 1.936592 0.747420 
5 — 0.049096 2.872052 0.719704 
6 — 0.064409 4.486381 0.611157 
7 0.080510 7.015414 0.427277 
8 0.010939 7.062228 0.529934 
9 0.028114 7.372276 0.598420 

10 0.080360 9.912252 0.448225 


可 以 看 出 ,p-value 均 大 于 显著 性 水 平 0. 05, 因 此 接受 假设 有 H,, 即 ,上 证 指数 日 收益 率 
序列 没有 显著 的 相关 性 。 


7.1.4 ”自曝 声 序列 和 线性 时 间 序 列 

1. 自曝 声 序列 

随机 变量 X CO (1 二 1,2,3,…) 如 果 是 由 一 个 不 相关 的 随机 变量 的 序列 构成 的 , 即 对 于 
所 有 s 不 等 于 4, 随机 变量 X, 和 XX, 的 协 方差 为 0, 则 称 其 为 纯 随机 过 程 。 

对 于 一 个 纯 随机 过 程 来 说 , 若 其 期 望 和 方差 均 为 常数 , 则 称 之 为 白 噪声 过 程 。 白 噪声 过 
程 的 样本 称 为 白 噪声 序列 ,简称 白 噪声 。 之 所 以 称 为 白 噪声 ,是 因为 它 和 白光 的 特性 类 似 ， 
白光 的 光谱 在 各 个 频率 上 有 相同 的 强度 , 白 噪声 的 谱 密 度 在 各 个 频率 上 的 值 相 同 。 
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2. 线性 时 间 序 列 
时 间 序 列 {x,} 如 果 能 写成 : 


rn-—ut S 
Her su rs 的 均值 ,yg 二 1,{a.) 为 白 品 声 序列 , 则 称 {x,) 为 线性 序列 , 称 a 为 在 t 时 刻 的 新 
息 (innovation) 或 扰动 (shock)。 
很 多 时 间 序 列 是 线性 的 , 即 是 线性 时 间 序 列 , 相 应 地 有 很 多 线性 时 间 序 列 模型 ,例如 接 
下 来 要 介绍 的 ARMA, ARMA 都 是 线性 模型 ,但 并 不 是 所 有 的 金融 时 间 序列 都 是 线性 的 。 
对 于 弱 平 稳 序列 ,利用 白 噪声 的 性 质 很 容易 得 到 ,的 均值 和 方差 : 


E(r,)= yp, Var(n) = ORTA 


其 中 ,a? 为 a, 的 方差 。 因 为 Var(7,) 一 定 小 于 正 无 穷 , 所 以 g 必须 是 收敛 序列 ,由 此 满足 
i> œt, g —o 
即 随 着 i 的 增 大 , 远 处 的 扰动 a,_; 对 ,的 影响 会 逐渐 消失 。 
到 目前 为 止 介绍 了 一 些 关 于 时 间 序 列 的 基本 知识 和 概念 ,如 平稳 性 、 相 关 性 、 白 噪声 、 线 
性 序列 。 下 面 介 绍 一 些 线性 模型 。 


7.2 自 回 归 模 型 


在 7.1 节 中 ,计算 了 上 证 指数 部 分 数据 段 的 ACE ,看 表 可 知 间隔 为 1 时 自 相 关系 数 是 
显著 的 。 这 说 明 在 :一 1 时 刻 的 数据 x,_, 在 预测 +t 时刻 时 的 7, 时 可 能 是 有 用 的 。 

根据 这 一 点 可 以 建立 下 面 的 模型 : 

ri = fo + Pirmi +a: 

其 中 {a,} 是 白 噪声 序列 ,这 个 模型 与 简单 线性 回归 模型 有 相同 的 形式 ,也 称 为 一 阶 自 回 归 
(AR) 模 型 ,简称 AR(1) 模 型 。 

从 AR(1) 很 容易 推广 到 AR(p) 模 型 : 

ri = $o + fura db + Pro, Ha 


7.2.1 AR(Cp) 模 型 的 特征 根 及 平稳 性 检验 


先 假定 序列 是 弱 平稳 的 , 则 有 
E(r,) =p, Var(r,) = Yos Cov(Gr srj) = Y; 
HP py 是 常数 。 因 为 {a,} 是 白 品 声 序列 ,因此 有 
Ela) =0, Varla) = o 
所 以 有 
EG = ot &EGLaA) + $2ECri2) + + PrE Crip) 
根据 平稳 性 的 性 质 ,又 有 EE(r,) = EG, aga. iti 
u= 4$» piut Pep n Po 
$» 


EG) =p 
1—5h—h5-—--—f$ 
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对 于 上 式 ,假定 分 母 不 为 0, 将 下 面 的 方程 称 为 特征 方程 : 
1 一 加工 一 上 一 … 一 gz 一 0 

该 方程 所 有 解 的 倒数 称 为 该 模型 的 特征 根 。 如 果 所 有 的 特征 根 的 模 都 小 于 1, 则 该 
AR(zp) 序 列 是 平稳 的 。 

下 面 就 用 该 方法 检验 上 证 指数 日 收益 率 序列 的 平稳 性 。 通 过 如 下 代码 得 到 图 7-3 所 示 
的 图 形 。 

temp = np.array(data2) # 载 人 收益 率 序列 

model = sm.tsa.AR(temp) 

results AR - model.fit() 

plt.figure(figsize- (10,4)) 

plt.plot(temp, 'b', label = 'CHGPct') 

plt.plot(results AR.fittedvalues, 'r', label = 'AR model') 

plt.legend() 


— CHGPct 
0.02 一 AR model|| 


50 100 150 — 200 250 — 300 350 — 400 
图 7-3 上 证 指数 日 收益 率 序列 的 平稳 性 


可 以 看 看 模型 有 多 少 阶 : 


print len(results AR.roots) 
17 


可 以 看 出 ,自动 生成 的 AR 模型 是 17 阶 的 。 关 于 阶 次 的 讨论 放 在 7.2.2 节 。 下 面 画 出 模型 
的 特征 根来 检验 平稳 性 : 


pi,sin,cos = np.pi,np.sin,np.cos 
et 
theta = np.linspace(0,2 * pi,360) 
xl = rl*cos(theta) 
yl = rl* sin(theta) 
plt.figure(figsize- (6,6)) 
plt. plot(x1, yl, k') 井 画 单位 圆 
roots = 1/results_AR. roots Z results AR.roots 是 特征 方程 的 解 ,特征 根 应 该 取 倒数 
for i in range(len(roots)): 
plt. plot(roots[ i]. real, roots[ i]. imag, '. r', markersize = 8) MER 
plt. show( ) 


可 以 看 出 ,所 有 特征 根 都 在 单位 圆 内 ,如 图 7-4 所 示 , 则 序列 为 平稳 的 。 
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7-4 单位 贺 


7.2.2 AR(p) 模 型 的 定 阶 


一 般 用 两 种 方法 来 决定 p: 

CD 利用 偏 自 相关 函数 (Partial Auto Correlation Function. PACF), 

(2) 利用 信息 量 准 则 函数 。 

1. 用 偏 自 相关 函数 确定 p 

对 于 偏 自 相关 函数 的 介绍 ,这 里 不 详细 展开 ,只 重点 介绍 一 个 性 质 ; AR(p) 序 列 的 样本 
偏 自 相 关 函 数 是 p 步 截 尾 的 。 所 谓 截 尾 , 就 是 快速 收敛 应 该 是 快速 降 到 几乎 为 0 或 者 在 园 
信 区 间 以 内 。 

具体 看 下 面 的 例子 ,还 是 以 前 面 的 上 证 指数 日 收益 率 序列 为 例 。 

fig= plt. figure(figsize= (20,5)) 

axl = fig.add_subplot(111) 

fig = sm. graphics. tsa. plot_pacf (temp, ax = axl) 

从 图 7-5 中 可 以 看 出 ,按照 截 尾 来 看 ,模型 阶 次 p 在 110 以 上 ,但 是 7. 2.1 节 调用 的 自 
动 生成 的 AR 模型 阶 数 为 17 ,当然 ,在 实际 应 用 中 很 少 会 用 这 么 高 的 阶 次 。 


Partial Autocorrelation 
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7-5 偏 自 相 关 图 
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2. 用 信息 量 准 则 确定 p 

现在 有 以 上 这 么 多 可 供 选 择 的 模型 ,在 选择 模型 时 通常 采用 AIC。 增 加 自由 参数 的 数 
目 能 提高 拟 合 的 优良 性 ,AIC 鼓励 数据 拟 合 的 优良 性 同时 又 能 尽量 避免 出 现 过 度 拟 合 
Coverfitting) 的 情况 。 所 以 优先 考虑 的 模型 应 是 AIC 值 最 小 的 那 一 个 。 赤 池 (Akaike) 信 息 
准则 的 方法 是 寻找 可 以 最 好 地 解释 数据 但 自由 参数 最 少 的 模型 。 目 前 在 选择 模型 时 常用 以 
下 3 个 准则 : 

(1) AlCCAkaike Information Criterion , 赤 池 信息 量 准 则 ) : 

AIC =— 2lnL + 2k 
(2) BIC(Bayesian Information Criterion, 贝 叶 斯 信息 量 准则 ) : 
BIC —— 2lnL + klnn 
(3) HQIC(Hannan-Quinn Information Criterion, 汉 南 - 奎 因 信 息 量 准则 ): 
HQIC =— 2lnL + kln(lnn) 

其 中 ,L 为 似 然 函数 值 ,k 为 拟 合 模型 中 的 参数 数量 ,n 为 观测 数据 的 个 数 。 

下 面 看 一 看 在 这 3 种 准则 下 确定 的 p, 仍 然 以 上 证 指数 日 收益 率 序列 为 例 。 为 了 减少 
计算 量 ,只 计算 前 10 个 数据 看 看 效果 。 

aicList = [] 

bicList = [] 

hqicList = [] 

fori inrange(1,11): # 从 1 阶 开始 算 

order = (i,0) ”# 这 里 使 用 了 ARMA 模型 ,order 代表 模型 的 (p,q) 值 , 令 a 始终 为 0, 就 只 考虑 
# 了 AR 的 情况 

tempModel = sm. tsa. ARMA( temp, order).fit() 

aicList. append(tempModel. aic) 

bicList. append(tempModel. bic) 

hgicList.append(tempModel. hqic) 

plt.figure(figsize- (15,6)) 

plt.plot(aicList, 'r', label = 'aic value') 

plt.plot(bicList, 'b', label = 'bic value') 

plt.plot(hgicList, 'k', label = 'hgic value') 

plt. legend( loc = 0) 

从 图 7-6 中 可 以 看 出 ,3 个 准则 在 第 一 点 均 取 到 最 小 值 ,也 就 是 说 ,p 的 最 佳 取 值 应 该 
为 1, 这 里 只 计算 了 前 10 个 数据 ,结果 未 必 正 确 。 


Erud — aic value 
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图 7-6 3 个 信息 准则 的 拟 合 情 况 
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当然 ,利用 上 面 的 方法 逐个 计算 是 很 耗 时 间 的 ,实际 上 ,有 专门 的 函数 可 以 直接 按照 准 
则 计算 出 合适 的 阶 次 ,这 个 函数 是 针对 ARMA 模型 的 ,后 面 再 讨论 。 


7.2.3 模型 的 检验 


根据 下 式 : 
r, = $o + fira He + Porp Ha 

如 果 模 型 满足 充分 条 件 ,其 残 差 序列 应 该 是 白 噪 声 ,7.1. 3 节 介 绍 的 混成 检验 可 以 用 来 检验 
残 差 与 白 噪声 的 接近 程度 。 

先 求 出 残 差 序列 : 

delta = results AR.fittedvalues - temp[17:] HRE 

plt.figure(figsize- (10,6) ) 

$t plt. plot(temp[17:], label = 'original value') 

# plt.plot(results AR.fittedvalues, label = 'fitted value') 

plt.plot(delta, 'r', label = 'residual error') 

plt. legend( loc = 0) 

生成 的 图 形 如 图 7-7 所 示 。 
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图 7-7 RFA 
检查 它 是 不 是 接近 白 噪 声 序 列 ,代码 如 下 : 


acf,q, p = sm. tsa. acf (delta, nlags = 10,qstat = True) # # 计 算 自 相关 系数 及 p- value 
out np.c [range(1,11), acf[1:], q, p] 

output = pd. DataFrame(out, columns = ['lag', "AC", "Q", "p- value"]) 

output = output.set index('lag') 


output 

AC Q p- value 

lag 
1 — 0.001228 0.000554 0.981226 
2 — 0.007834 0.023140 0.988497 


3 — 0.002311 0.025110 0.998950 
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4 — 0.007182 0.044199 0.999759 
5 — 0.000231 0.044219 0.999978 
6 — 0.001315 0.044862 0.999998 
7 — 0.005744 0.057176 1.000000 
8 — 0.005663 0.069178 1.000000 
9 — 0.011057 0.115060 1.000000 
10 0.004697 0.123362 1.000000 


观察 p-value 可 知 , 该 序列 可 以 视 为 没有 相关 性 ,因此 可 以 认为 残 差 序列 接近 白 噪声 。 


7.2.4 MERERI 
1. WERE 
使 用 下 面 的 统计 量 来 衡量 拟 合 优 度 : 
gli _ 残 差 的 平方 和 
总 的 平方 和 
但 是 ,对 于 一 个 给 定 的 数据 集 , 尽 是 用 参数 个 数 的 非 降 函数 ,为 了 克服 该 缺点 ,推荐 使 
用 调整 后 的 R?: 
;一 1 _ 残 差 的 平方 
r, 的 方差 
它 的 值 在 0、1 之 间 , 越 接近 1, 拟 合 效果 越 好 。 
下 面 计算 之 前 的 上 证 指数 日 收益 率 的 AR 模型 的 拟 合 优 度 : 


score = 1 - delta.var()/temp[17:].var() 
print score 
0.0405166950061 


可 以 看 出 ,模型 的 拟 合 效 果 并 不 好 ,当然 ,这 并 不 重要 ,也 许 是 这 个 序列 并 不 适合 用 AR 
模型 拟 合 。 

2. 预测 

首先 把 原来 的 样本 分 为 训练 集 和 测试 集 ,再 来 看 预测 效果 ,还 是 以 之 前 的 数据 为 例 : 


train = temp[: 一 10] 

test = temp[ - 10:] 

output = sm.tsa.AR(train).fit() 
output. predict() 


predicts = output.predict(355, 364, dynamic = True) 
print len(predicts) 
comp = pd.DataFrame() 
comp['original'] = temp[ ~ 10:] 
comp['predict'] = predicts 
comp 
original predict 
0 一 0.00223 0.000908 
1 0.01022 — 0.001473 
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2 0.00145 — 0.002109 
3 0.01278 — 0.002158 
4 0.01024 — 0.000216 
5 0.02414 0.000116 
6 0.00241 0.001476 
E — 0.00089 — 0.000119 
8 0.00932 — 0.000520 
9 — 0.00739 — 0.000162 


该 模型 的 预测 结果 不 太 好 。 是 不 是 可 以 通过 其 他 模型 获得 更 好 的 结果 呢 ? 有 关 方 法 将 
在 后 面 的 几 节 介 绍 。 


7.3 移动 平均 模型 及 预测 


这 里 我 们 直接 给 出 移动 平均 (Moving Average MA) 模 型 MA(g) 的 形式 : 
r, = c Ha, — 06,4 — t — bay 
co 为 一 个 常数 项 。 这 里 的 a, 是 AR 模型 + 时刻 的 扰动 ,可 以 发 现 ,该 模型 使 用 了 过 去 g 个 时 
期 的 随机 干扰 或 预测 误差 来 线性 地 表达 当前 的 预测 值 。 


7.3.1 MA(g) 模 型 的 性 质 

1. 平稳 性 

MA(d) 模 型 总 是 弱 平 稳 的 ,因为 它们 是 白 噪 声 序列 ( 残 差 序列 ) 的 有 限 线性 组 合 。 因 
此 ,根据 弱 平稳 的 性 质 可 以 得 出 两 个 结论 : 

E(r,) = co, Var(r) = (03-6 ++ +o 

2. BiBo en 

对 MAC EU , Kc EL HO ER C ACF 总 是 g 步 截 尾 的 。 因 此 MA(g) 序 列 只 与 其 前 g 个 
延迟 值 线性 相关 ,从 而 它 是 一 个 “有 限 记 忆 ” 的 模型 。 

这 一 点 可 以 用 来 确定 模型 的 阶 次 ,后 面 会 介绍 。 

3. 可 逆 性 

当 满 足 可 道 条 件 的 时 候 , MA(g) 模 型 可 以 改写 为 AR(p) 模 型 。 这 里 不 进行 推导 ,只 给 
出 1 阶 和 2 Br MA 模型 的 可 道 性 条 件 。 

1 阶 : 


la [<1 
2 阶 : 
l6 |<1; 6 0-6 —1 


7.3.2 MA(g) 模 型 的 阶 次 判定 


通常 利用 上 面 介绍 的 第 二 条 性 质 *MA(g) 模 型 的 ACF 函数 是 q 步 截 尾 的 ?来 判断 模型 
阶 次 。 下 面 使 用 上 证 指数 的 日 涨 跌 数 据 (2013 年 1 月 至 2014 4E 8 月 ) 来 进行 分 析 , 先 取 数 
据 , 取 数 和 绘图 代码 如 下 : 
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from scipy import stats 

import statsmodels.api as sm # 统 计 相 关 的 库 

import numpy as np 

import pandas as pd 

import matplotlib. pyplot as plt 

IndexData = DataAPI. MktIdxdGet (indexID = u"", ticker = u" 000001", beginDate = u" 20130101", 
endDate = u"20140801", field = u"tradeDate, closeIndex, CHGPct" , pandas = "1") 

IndexData = IndexData.set index(IndexData[ 'tradeDate']) 

data = np.array(IndexData[ 'CHGPct']) 井上 证 指数 日 涨 跌 

IndexData[ 'CHGPct']. plot (figsize= (15,5)) 


生成 的 图 形 如 图 7-8 所 示 。 
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图 7-8 上 证 指数 的 日 涨 跌 数据 
可 以 看 出 ,序列 看 上 去 是 弱 平稳 的 。 下 面 画 出 序列 的 ACF: 


fig = plt.figure(figsize= (20,5)) 

axl = fig.add_subplot(111) 

fig = sm.graphics. tsa. plot acf(data,ax- axl) 

可 以 发 现 ,图 7-9 所 示 的 ACF 在 43 处 截 尾 , 之 后 的 ACF 均 在 置信 区 间 内 ,由 此 可 以 判 
定 该 序列 的 MA 模型 阶 次 为 43。 


Autocorrelation 
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7-9. 序列 的 自 相关 函数 


7.3.3 建 模 和 预测 


由 于 sm. tsa 中 没有 单独 的 MA 模块 ,因此 利用 ARMA 模块 ,只 要 将 其 中 AR 的 阶 p 
设 为 0 即 可 。 
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函数 sm. tsa. ARMA 中 的 输入 参数 中 的 order(p,q) 代 表 了 AR 和 MA 的 阶 次 。 模 型 
阶 次 增高 ,计算 量 将 急剧 增长 ,因此 这 里 仅 以 建立 10 阶 的 模型 为 例 ,如 果 按 7. 3. 2 节 判 断 的 
阶 次 来 建 模 , 则 计算 时 间 过 长 。 

用 最 后 10 个 数据 作为 out-sample 的 样本 用 来 对 比 预测 值 , 

order = (0,10) 

train - data[: - 10] 

test = data[ — 10:] 

tempModel = sm. tsa. ARMA(train, order).fit() 

先 来 看 看 拟 合 效果 ,计算 

"E ZI 
Adj 


r, 的 方差 


delta = tempModel.fittedvalues - train 
score = 1 - delta.var()/train.var() 
print score 

0.0278706962641 


可 以 看 出 ,score 远 小 于 1 , 拟 合 效果 不 好 。 

然后 用 建立 的 模型 预测 最 后 10 个 数据 : 

predicts = tempModel.predict(371, 380, dynamic = True) 

print len(predicts) 

comp = pd.DataFrame() 

comp['original'] = test 

comp['predict'] = predicts 

comp. plot() 

从 图 7-10 中 可 以 看 出 ,建立 的 模型 拟 合 效果 很 差 ,预测 值 明 显 小 了 1 一 2 个 数量 级 ,就 
算 只 看 涨 跌 方向 ,正确 率 也 不 足 50%。 该 模型 不 适用 于 原 数 据 。 


一 original 
一 predict 


0 1 à 3 4 5 6 17 8 9 
图 7-10 预测 
关于 MA 的 内 容 在 上 面 只 做 了 简单 介绍 ,下面 主 要 介绍 ARMA 模型 。 


7.4 自 回归 移动 平均 模型 及 预测 


在 有 些 应 用 中 ,需要 高 阶 的 AR 或 MA 模型 才能 充分 地 描述 数据 的 动态 结构 ,这 样 问 
题 会 变 得 很 复杂 。 为 了 克服 这 个 困难 ,提出 了 自 回归 移动 平均 (Auto-Regressive and Moving 
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Average,ARMA) 模 型 。 其 基本 思想 是 把 AR 和 MA 模型 结合 在 一 起 ,使 所 使 用 的 参数 个 
数 很 小 。 

ARMA(p,g) 模 型 的 形式 为 

ni 三 加 十 » firri tat D» 
i=l i=1 
其 中 ,{a,) 为 白 品 声 序列 ,p 和 gq 都 是 非 负 整数 。AR(p) 模 型 和 MA(g) 模 型 都 是 ARMA(p,g) 
模型 的 特殊 形式 。 利 用 向 后 推移 算 子 B, 上 述 模型 可 写成 
(1— &h B — $B — -- — $)B^)r, = $o + (1 — 0, B — 6B? 一 … 一 和 B?)a， 

(后 移 算 子 B 即 回 到 上 一 时 刻 。) 
再 求 的 期 望 ,得 到 


he -二 
1— $i — $z — = — $p 
和 前 面 AR 模型 一 样 ,因此 有 着 相同 的 特征 方程 : 
1— fiz — fzr’ 一 … 一 gzp = 0 

该 方程 所 有 解 的 倒数 称 为 该 模型 的 特征 根 , 如 果 所 有 的 特征 根 的 模 都 小 于 1, 则 该 ARMA 
模型 是 平稳 的 。 

有 一 点 很 关键 : ARMA 模型 的 应 用 对 象 应 该 为 平稳 序列 。 下 面 的 步骤 都 是 建立 在 假 
设 原 序 列 平稳 的 条 件 下 的 。 


7.4.1 确定 ARMA(p,g) 模 型 的 阶 次 
1. 用 PACF、ACF 确定 模型 阶 次 
通过 观察 PACF 和 ACF 截 尾 可 以 分 别 确定 pq 的 值 (限定 滞后 阶 数 为 50) 。 


E(r,) = 


fig= plt. figure(figsize= (20,10)) 

axl = fig.add_subplot(211) 

fig = sm. graphics. tsa. plot_acf (data, lags = 30,ax = ax1) 

ax2 = fig.add subplot(212) 

fig = sm. graphics. tsa. plot_pacf (data, lags = 30, ax = ax2) 

生成 的 图 形 如 图 7-11 所 示 。 

可 以 看 出 ,模型 的 阶 次 应 该 为 (27,27) 。 然 而 ,对 这 么 高 的 阶 次 建 模 ,计算 量 是 巨大 的 。 
为 什么 不 再 限制 滞后 阶 数 小 一 些 ? 这 是 因为 ,如 果 将 lags 设置 为 25、20 或 者 更 小 时 , 阶 数 
为 (0,0) ,这 显然 不 是 我 们 想 要 的 结果 。 

综合 来 看 ,由 于 计算 量 太 大 ,在 这 里 不 能 使 用 (27,27) 建 模 , 而 要 采用 另外 一 种 方法 确定 
阶 次 。 

2. 用 信息 准则 确定 阶 次 

关于 信息 准则 ,在 7.2.2 节 已 经 作 了 介绍 。 

目前 选择 模型 主要 有 AIC、BIC 和 HQ 这 3 个 准则 。 

其 中 最 常用 的 是 AIC. AIC 鼓励 数据 拟 合 的 优良 性 同时 又 尽量 避免 出 现 过 度 拟 合 的 情 
况 , 所 以 优先 考虑 的 模型 应 是 AIC 值 最 小 的 模型 。 
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下 面 分 别 应 用 以 上 3 种 法 则 为 模型 定 阶 ,数据 仍然 是 上 证 指数 日 涨 跌 幅 序列 。 为 了 控 
制 计算 量 ,限制 AR 最 大 阶 次 不 超过 6, MA 最 大 阶 次 不 超过 4。 但 是 这 样 带 来 的 坏处 是 拟 
合 结果 可 能 为 局 部 最 优 。 

sm.tsa.arma order select ic(data,max ar = 6,max_ma = 4, ic = 'aic')['aic_min_order'] & AIC 

(3, 3) 

sm.tsa.arma order select ic(data,max ar- 6, max_ma = 4, ic = 'bic')['bic min order'] #BIC 

(0, 0) 

sm.tsa.arma order select ic(data,max ar = 6,max ma = 4, ic = 'hgic')['hgic min order'] & HQIC 

(0, 0) 


可 以 看 出 ,AIC 求解 的 模型 阶 次 为 (3,3)。 这 里 采用 AIC。 至 于 到 底 哪 种 准则 更 好 ,可 
以 分 别 建 模 进行 对 比 。 


7.4.2 ARMA 模型 的 建立 及 预测 


使 用 上 面 用 AIC 求解 的 模型 阶 次 (3,3) 来 建立 ARMA 模型 , 源 数据 为 上 证 指数 日 涨 跌 
幅 序列 ,最 后 10 个 数据 用 于 预测 。 


order = (3,3) 

train = data[: - 10] 

test = data[ - 10:] 

tempModel = sm.tsa.ARMA(train, order).fit() 
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同样 先 来 看 看 拟 合 效果 : 


delta = tempModel.fittedvalues — train 
score = 1 - delta.var()/train.var() 
print score 

0.0495081497069 


如 果 对 比 之 前 建立 的 AR. MA 模型 ,可 以 发 现 拟 合 优 度 有 所 提升 。 


predicts = tempModel.predict(371, 380, dynamic = True) 
print len(predicts) 

comp = pd.DataFrame() 

comp['original'] = test 

comp['predict'] = predicts 

conp. plot() 


从 图 7-12 中 可 以 看 出 ,虽然 正确 率 还 是 很 低 , 不 过 与 之 前 的 MA 模型 相 比 ,如 果 只 看 
涨 跌 ,正确 率 为 55.6% ,效果 还 是 好 了 不 少 。 
rma 
— predict 


732 ”预测 结果 


7.5 ARIMA 模型 及 预测 


到 目前 为 止 ,我 们 研究 的 序列 都 是 平稳 序列 , 即 ARMA 模型 研究 的 对 象 为 平稳 序列 。 
如 果 序 列 是 非 平稳 的 ,就 可 以 考虑 使 用 差分 自 回归 移动 平均 (Auto-Regressive Integrated 
Moving Average,ARIMA) 模 型 。 

ARIMA Ht ARMA 仅 多 了 一 个 “1” ,代表 着 其 比 ARMA 多 了 一 层 内 涵 ,也 就 是 差分 。 

一 个 非 平稳 序列 经 过 d 次 差分 后 ,可 以 转化 为 平稳 时 间 序 列 。d 具体 的 取 值 方法 如 下 : 
对 差分 一 次 后 的 序列 进行 平稳 性 检验 ,车 是非 平 稳 的 , 则 继续 差分 ,直到 d 次 后 的 检验 结果 
为 平稳 序列 。 


7.5.1 单位 根 检验 


ADF( Augmented Dickey-Fuller, 增 强 的 DF 检验 ) 是 一 种 常用 的 单位 根 检验 方法 , 它 的 
原 假设 为 序列 具有 单位 根 , 即 非 平稳 ,对 于 一 个 平稳 的 时 序数 据 , 就 需要 在 给 定 的 置信 区 间 
显著 ,此 时 拒绝 原 假设 。 

下 面 给 出 示例 。 先 看 上 证 综合 指数 的 日 指数 序列 : 
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data2 = IndexData[ 'closeIndex'] 井上 证 指数 
data2. plot(figsize = (15,5)) 


从 图 7-13 可 见 , 这 里 显然 是 非 平稳 的 。 
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下 面 进 行 ADF 检验 : 


temp = np.array(data2) 

t = sm.tsa. stattools.adfuller(temp) #ADF 检验 

output = pd. DataFrame( index = [ 'Test Statistic Value', "p - value", "Lags Used", "Number of 
Observations Used"," Critical Value(15 )","Critical Value(5 $ )","Critical Value(10 $ )"], 
columns = [ value']) 

output[ 'value']['Test Statistic Value'] = t[0] 

output[ 'value']['p- value'] = t[1] 

output[ 'value']['Lags Used'] = t[2] 

output['value'][ Number of Observations Used'] = t[3] 

output['value']['Critical Value(15* )'] = t[4]['15 '] 

output['value']['Critical Value(5 % )'] = t[4]['5$ '] 

output['value']['Critical Value(10% )'] = t[4]['10* '] 

output 

value 

Test Statistic Value - 2.30472 

p-value 0.170449 


Lags Used 1 

Number of Observations Used 379 
Critical Value(15* ) — 3.44772 
Critical Value(5 $% ) — 2.8692 
Critical Value(10 & ) — 2.57085 


可 以 看 出 ,p-value Jj 0.170449 ,大 于 显著 性 水 平 , 原 假设 不 能 被 拒绝 ,因此 上 证 综合 指 
数 日 指数 序列 为 非 平 稳 的 。 对 序列 进行 一 次 差分 后 再 次 检验 : 


data2Diff = data2.diff() # 差 分 
data2Diff.plot(figsize- (15,5)) 


从 图 7-14 可 见 , 序 列 近 似 平稳 序列 。 
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再 次 进行 ADF 检验 : 


temp = np.array(data2Diff)[1:] # 差 分 后 第 一 个 值 为 NaN, & 3: 
t = sm.tsa. stattools.adfuller(temp) #ADF 检验 

print "p- value: ",t[1] 

p- value: 2.31245750144e - 30 

可 以 看 出 ,p-value 非常 接近 0 ,拒绝 原 假设 ,因此 ,该 序列 为 平稳 的 。 

可 见 ,经 过 一 次 差分 后 的 序列 是 平稳 的 ,对 于 原 序列 ,d 的 取 值 为 1 即 可 。 


7.5.2. ARIMA(p,d,g) 模 型 阶 次 确定 


在 7.5.1 节 中 确定 了 差分 次 数 d, 接 下 来 就 可 以 对 差分 后 的 序列 建立 ARMA 模型 。 
首先 ,还 是 利用 PACF 和 ACF 来 确定 pq: 
temp = np.array(data2Diff)[1:] # 差 分 后 第 一 个 值 为 NaN, 舍 去 
fig = plt.figure(figsize= (20,10)) 
axl = fig.add_subplot(211) 
fig = sm. graphics. tsa. plot_acf (temp, lags = 30,ax = ax1) 
ax2 = fig.add subplot(212) 
fig = sm. graphics. tsa. plot_pacf (temp, lags = 30, ax = ax2) 
从 图 7-15 中 可 以 看 出 ,模型 的 阶 次 为 (27,27) ,还 是 太 高 了 , 建 模 计算 量 太 大 。 
再 看 看 利用 AIC 确定 pa 的 情况 : 
Sm.tsa.arma order select ic(temp,max ar = 6, max_ma = 4, ic = 'aic')['aic min order'] 
(2, 2) 
根据 AIC ,差分 后 的 序列 的 ARMA 模型 阶 次 为 (2,2) ,因此 ,要 建立 的 ARIMA 模型 的 
阶 次 (p,d,gq) 为 (2,1,2)。 


7.5.3 ARIMA 模型 的 建立 及 预测 
根据 7. 5. 2 节 确 定 的 模型 阶 次 ,我 们 对 差分 后 的 序列 建立 ARMA(2,2) 模 型 : 


order = (2,2) 
data = np.array(data2Diff)[1:] 井 差 分 后 第 一 个 值 为 NaN 
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rawdata = np.array(data2) 

train = data[: - 10] 

test = data[ - 10:] 

model = sm. tsa. ARMA( train, order). fit() 


先 看 差分 序列 的 ARMA 拟 合 值 : 


plt.figure(figsize- (15,5)) 
plt.plot(model.fittedvalues, label = 'fitted value') 
plt. plot(train[1: ], label = 'real value') 

plt. legend( loc = 0) 


拟 合 效果 如 图 7-16 所 示 。 
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— fitted value 
— real value 
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delta = model.fittedvalues - train 
score = 1 - delta. var()/train[1:].var() 
print score 

0. 0397489997089 


再 看 对 差分 序列 的 预测 情况 : 


predicts = model.predict(10,381, dynamic = True)[ - 10:] 
print len(predicts) 

comp = pd.DataFrame() 

comp['original'] = test 

comp['predict'] = predicts 

comp. plot(figsize- (8,5)) 

comp. plot(figsize- (8,5)) 


预测 结果 如 图 7-17 所 示 。 
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图 7-17 预测 结果 
可 以 看 出 ,差分 序列 ARMA 模型 的 拟 合 效果 和 预测 结果 并 不 好 ,预测 值 非常 小 ,这 代 


表 模 型 在 预测 时 认为 预测 值 很 接近 上 一 时 刻 的 值 。 


这 个 影响 可 能 来 自 模型 阶 次 ,看 来 模型 阶 次 还 是 得 尝试 更 高 阶 的 。 这 里 就 不 建 模 了 ( 计 


算 时 间 太 长 ) ,读者 如 有 兴趣 可 以 试 试 高 阶 的 模型 。 


最 后 将 预测 值 还 原 ( 即 在 上 一 时 刻 指 数值 的 基础 上 加 上 差分 差 值 的 预 估 ): 
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rec = [rawdata[ - 11]] 
pre = model.predict(371, 380, dynamic = True) # 差分 序列 的 预测 
for i in range(10) : 
rec. append(rec[i] + pre[i]) 
plt.figure(figsize- (10,5)) 
plt.plot(rec[ - 10:], 'r', label = 'predict value') 
plt.plot(rawdata[ - 10:], 'blue', label = 'real value') 
plt.legend(loc = 0) 


从 图 7-18 中 可 以 发 现 ,由 于 对 差分 序列 的 预测 很 差 ,还 原 为 原 序列 后 ,预测 值 几乎 都 在 
前 一 个 值 上 有 小 幅 波动 ,模型 仍然 不 够 好 。 
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7.6 自 回 归 条 件 异 方差 模型 ARCH 及 预测 


前 面 介 绍 了 ARMA 、ARIMA 等 模型 ,这些 模型 一 般 都 假设 干扰 项 的 方差 为 常数 ,然而 
在 很 多 情况 下 ,时 间 序 列 的 波动 有 集聚 性 等 特征 ,使 得 方差 并 不 为 常数 。 因 此 ,对 于 如 何 刻 
画 方差 是 十 分 有 必要 研究 的 。 本 节 介 绍 的 ARCH 模型 和 7.7 节 介 绍 的 GARCH 模型 可 以 
刻画 出 随时 间 变 化 的 条 件 异 方差 。 

7.6.1 波动 率 的 特征 

对 于 金融 时 间 序 列 ,波动 率 往往 具有 以 下 特征 : 

CD 存在 波动 率 聚 集 现象 。 即 波动 率 一 段 时 间 高 , 另 一 段 时 间 低 。 

(2) 波动 率 连续 变化 ,很 少 发 生 跳跃 。 

(3) 波动 率 不 会 发 散 到 无 穷 ,往往 是 平稳 的 。 

(4) 波动 率 对 价格 大 幅 上 升 和 大 幅 下 降 的 反应 是 不 同 的 ,这 个 现象 称 为 杠杆 效应 。 


7.6.2 ARCH 模型 的 基本 原理 


在 传统 计量 经 济 学 模型 中 ,干扰 项 的 方差 被 假设 为 常数 。 但 是 许多 经 济 时 间 序 列 呈 现 
出 波动 的 集聚 性 ,在 这 种 情况 下 假设 方差 为 常数 是 不 恰当 的 。 
ARCH(Auto-Regressive Conditional Heteroskedasticity, 自 回归 条 件 异 方差 ) 模 型 将 


N| 
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当前 一 切 可 利用 的 信息 作为 条 件 , 并 采用 某 种 自 回 归 形 式 来 刻画 方差 的 变异 ,对 于 一 个 时 间 
序列 而 言 , 在 不 同时 刻 可 利用 的 信息 不 同 , 而 相应 的 条 件 方差 也 不 同 ,利用 ARCH 模型 ,可 
以 刻画 出 随时 间 而 变异 的 条 件 方差 。 

1. ARCH 模型 的 思想 

ARCH 模型 的 思想 如 下 : 

CD. 资产 收益 率 序列 的 扰动 {a,} 是 序列 不 相关 的 ,但 是 不 独立 。 

(2) (a,} 的 不 独立 性 可 以 用 其 延迟 值 的 简单 二 次 函数 来 描述 。 

具体 而 言 , 一 个 ARCH Om ER A 

a 一 oO = ay d- a10L., d + aol, 750 i29 0.a; 20 

其 中 ,e, 是 均值 为 0 方差 为 1 的 独立 同 分 布 (Independent Identically Distributed, IHd) ff] B 
机 变量 序列 。 通 常 假定 其 服从 标准 正 态 分 布 ; of 为 条 件 异 方差 。 

2. ARCH 模型 效应 


从 ARCH 模型 的 结构 看 ,过 去 的 大 的 平方 扰动 会 导致 信息 4, 出现 大 的 条 件 异 方差 。 从 
而 a, 有 取 绝 对 值 较 大 的 值 的 倾向 。 这 意味 着 : 在 ARCH 的 框架 下 ,大 的 扰动 会 倾向 于 紧 接 
着 出 现 另 一 个 大 的 扰动 。 这 与 波动 率 聚 集 的 现象 相似 。 

所 谓 ARCH 模型 效应 也 就 是 条 件 异 方差 序列 的 序列 相关 性 。 


7.6.3 ARCH 模型 的 建立 及 预测 


上 面 简单 介绍 了 ARCH 的 原理 ,下 面 主 要 介绍 如 何在 Python 中 实现 。ARCH 模型 的 
建立 大 致 分 为 以 下 几 步 : 

(1) 通过 检验 数据 的 序列 相关 性 建立 一 个 均值 方程 ,如 有 必要 ,对 收益 率 序列 建立 一 个 
计量 经 济 模型 (如 ARMA) 来 消除 任何 线形 依赖 。 

(2) 对 均值 方程 的 残 差 进行 ARCH 效应 检验 。 

(3) 如 果 具 有 ARCH 效应 , 则 建立 波动 率 模型 。 

(4) 检验 拟 合 的 模型 ,如 有 必要 则 进行 改进 。 

Python 的 ARCH 库 提供 了 现成 的 方法 (后 面 会 介绍 )。 这 里 为 了 理解 ARCH ,还 是 按 
上 述 流 程 来 建 模 。 

1. 均值 方程 的 建立 

这 里 的 均值 方程 可 以 简单 地 视 为 ARMA( 或 ARIMA) 模 型 ,ARCH 其 实 是 在 此 基础 上 
的 一 些 修正 。 下 面 的 过 程 以 上 证 指数 日 涨 跌幅 序列 为 例 。 

arch 库 均值 方程 只 支持 常数 、 零 均值 .AR 模型 ,这 里 建立 AR 模型 以 方便 对 照 。 

首先 导入 相关 库 : 

from scipy import stats 

import statsmodels.api as sm # 统 计 相 关 的 库 

import numpy as np 

import pandas as pd 

import matplotlib. pyplot as plt 

import arch 井 条 件 异 方差 模型 相关 的 库 


import numpy as np 


HERR: RI AuHHAHA AE Python 应 用 UT 
IndexData = DataAPI.MktIdxdGet(indexID = u"",ticker = u"000001", beginDate = u"20140101", 
endDate = u"20160101", field = u"tradeDate, closeIndex, CHGPct" , pandas = "1") 
IndexData = IndexData.set index(IndexData[ tradeDate']) 
data = np.array(IndexData[ 'CHGPct']) 井上 证 指数 日 涨 跌 
IndexData[ 'CHGPct'].plot(figsize= (15,5)) 


结果 如 图 7-19 所 示 。 
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7-19. 上 证 指数 日 涨 跌幅 序列 


首先 检验 这 个 序列 的 平稳 性 ,以 决定 是 否 需 要 差分 。 
原 假设 Ho. 序列 为 非 平稳 的 。 
备 择 假设 H1: 序列 是 平稳 的 。 
t = sm.tsa. stattools.adfuller(data) # ADF 检验 


print "p- value: ",t[1] 
p- value: 7.56217111771e- 10 


p-value 小 于 显著 性 水 平 ,拒绝 原 假设 ,因此 序列 是 平稳 的 。 接 下 来 建立 AR(p) 模 型 ， 
先 确定 阶 次 ， 

fig = plt.figure(figsize= (20,5)) 

axl = fig.add subplot(111) 

fig = sm.graphics.tsa.plot pacf(data,lags = 20,ax- axl) 


根据 图 7-20 所 示 的 结果 确定 模型 的 阶 次 为 8。 
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因此 建立 AR(8) 模 型 ( 即 均值 方程 ) : 


order = (8,0) 
model = sm. tsa. ARMA(data, order).fit() 


2. ARCH 效应 的 检验 


利用 前 面 的 金融 时 间 序 列 中 的 混成 检验 ,检验 序列 {e:} 的 相关 性 ,以 判断 是 否 具 有 
ARCH 效应 。 
计算 均值 方程 残 差 : 
d, — Ty — ph 


画 出 残 差 及 残 差 的 平方 图 (图 7-21) : 


at = data - model.fittedvalues 
at2 = np.square(at) 
plt.figure(figsize- (10,6)) 
plt. subplot(211) 
plt.plot(at,label = 'at') 
plt.legend() 

plt. subplot(212) 

plt. plot(at2, label = 'at ^2') 
plt. legend( loc = 0) 


图 7-21 和 残 差 及 残 差 的 平方 图 


然后 对 {a?) 序 列 进行 混成 检验 。 

原 假设 Ho: 序列 没有 相关 性 。 

备 择 假 设 Hl1: 序列 具有 相关 性 。 

m= 25 # 检 验 25 个 自 相关 系数 


acf,q,p = sm.tsa.acf(at2, nlags = m, qstat = True) 草 计算 自 相 关系 数 及 p- value 
out = np.c [range(1,26), acf[1:], a, p] 
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output = pd. DataFrame(out, columns = [ lag', "AC", "Q", "p- value"]) 
output = output.set index('lag') 


output 

AC Q p- value 

lag 

12.0 0.239757 28.282241 1.048535e - 07 
2.0 0.255331 60.423948 7.570185e- 14 
3:0 0.228798 86.285742 1.374508e - 18 
4.0 0.219128 110.056680 7.077883e - 23 
5,9 0.168780 124.188080 4.067130e - 25 
6.0 0.161528 137.158124 3.985737e - 27 
7.0 0.137504 146.576465 2.124208e - 28 
8.0 0.105536 152.136153 7.026640e - 29 
9.0 0.106765 157.837856 2.088698e - 29 
10.0 0.155264 169.921508 2.879791e- 31 
11.0 0.069119 172.321227 3.926127e - 31 
12.0 0.161936 185.520839 3.133881e- 33 
13.0 0.178842 201.654183 6.250427e - 36 
14.0 0.118093 208.703516 9.114384e - 37 
15.0 0.144957 219.347113 2.422050e - 38 
16.0 0.182641 236.279823 3.335182e- 41 
17.0 0.106904 242.093282 8.562367e - 42 
18.0 0.114413 248.766262 1.453060e - 42 
19.0 0.127249 257.038031 1.158714e- 43 
20.0 0.173348 272.421618 3.326506e - 46 
21.0 0.173865 287.930159 9.021732e - 49 
22.0 0.079046 291.142609 7.600739e - 49 
23.0 0.076027 294.120679 7.040669e - 49 
24.0 0.052259 295.530808 1.329812e - 48 
25.0 0.112291 302.055542 2.325657e - 49 


p-value 小 于 显著 性 水 平 0. 05 ,拒绝 原 假设 , 即 认为 序列 具有 相关 性 ,因此 具有 ARCH 


E 


3. ARCH 模型 的 建立 
首先 确定 ARCH 模型 的 阶 次 ,可 以 用 {a?} 序 列 的 偏 自 相关 函数 PACF 来 确定 : 


fig= plt. figure(figsize= (20,5)) 
axl = fig.add_ subplot(111) 
fig = sm. graphics. tsa. plot pacf(at2,lags = 30,ax = ax1) 


由 图 7-22 可 以 粗略 定 为 4 阶 。 
然后 建立 AR(4) 模 型 : 
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Æ 7-22 确定 ARCH 模型 的 阶 次 


后 续 的 AR 模型 就 不 建立 了 。 当 然 ,按照 上 述 流程 走 下 来 非常 麻烦 。 事 实 上 arch 库 可 
以 一 步 到 位 。 根 据 前 面 的 分 析 , 可 以 粗略 选择 均值 模型 为 AR(8) 模 型 ,波动 率 模型 选择 
ARCH(4) 模 型 。 

train = data[: - 10] 

test = data[ - 10:] 


am = arch. arch_model( train, mean = 'AR', lags = 8, vol = 'ARCH',p- 4) 
res = am. fit() 


Iteration: 1, Func. Count: 16, Neg. LLF: — 1272.93439065 
Iteration: 2, Func. Count: 39, Neg. LLF: — 1273.02798938 
Iteration: 3, Func. Count: 58, Neg. LLF: — 1277.10942265 
Iteration: 4, Func. Count: 80, Neg. LLF: — 1279.73673261 
Iteration: 5, Func. Count: 99, Neg. LLF: — 1280.01607785 
Iteration: 6, Func. Count: 119, Neg. LLF: — 1280.04167919 
Iteration: 7, Func. Count: 138, Neg. LLF: — 1280.12904263 
Iteration: 8, Func. Count: 155, Neg. LLF: — 1282.54546445 
Iteration: 9, Func. Count: 173, Neg. LLF: — 1283.48142635 
Iteration: 10, Func. Count: 191, Neg. LLF: — 1283.85440661 
Iteration: 11, Func. Count: 210, Neg. LLF: — 1283.92025828 
Iteration: 12, Func. Count: 228, Neg. LLF: — 1284.11640532 
Iteration: 13; Func. Count: 246, Neg. LLF: — 1284.33915135 
Iteration: 14, Func. Count: 263, Neg. LLF: — 1285.0033914 
Iteration: 15, Func. Count: 280, Neg. LLF: — 1286.97327532 
Iteration: 16, Func. Count: 297, Neg. LLF: — 1288.03135559 
Iteration: 17, Func. Count: 313, Neg. LLF: — 1289.30284818 
Iteration: 18, Func. Count: 330, Neg. LLF: — 1289.37049398 
Iteration: 19, Func. Count: 346, Neg. LLF: — 1289.40341838 
Iteration: 20, Func. Count: 363, Neg. LLF: — 1289.40634304 
Iteration: 21, Func. Count: 380, Neg. LLF: — 1289.40685924 
Iteration: 22, Func. Count: 396, Neg. LLF: — 1289.40692047 
Iteration: 23, Func. Count: 412, Neg. LLF: — 1289.40693412 
Iteration: 24, Func. Count: 428, Neg. LLF: — 1289.40693547 


Optimization terminated successfully. (Exit mode 0) 
Current function value: - 1289.40693539 
Iterations: 24 
Function evaluations: 428 
Gradient evaluations: 24 

res. sunmary( ) 


第 7 章 人 金融 时 间 序列 分 析 及 其 Python 应 用 


AR — ARCH Model Results 


Dep. Variable:y R- squared: 0.014 

Mean Model:AR Adj. R- squared: — 0.003 

Vol Model : ARCH Log - Likelihood: 1289.41 

Distribution:Normal AIC: — 2550.81 

Method:Maximum Likelihood BIC: — 2492.65 

No. Observations: 471 

Date:Fri, Feb 24 2017 Df Residuals: 457 

Time:08:45:05 Df Model: 14 

Mean Model 

coef stderrt P»|t| 95.0% Conf. Int. 

Const 1.6120e- 03 3.598e- 07 4480.657 0.000 [1.611e- 03,1.613e- 03 
y[1] 0.1163 2.143e- 03 54.260 0.000 [0.112, 0.120] 

y[2] - 0.0982 4.637e- 03 -21.183 1.374e- 99 [- 0.107, - 8.913e- 02] 
y[3] -0.1171 4.976e- 03 - 23.538 1.653e- 122 [-0.127, - 0.107] 
y[4] 0.0394 8.667e— 03 4.547 5.429e- 06 [2. 243e - 02,5.640e - 02 
y[5] -0.0149 3.173e- 03 —4.699 2.609e- 06 [ -2.113e- 02, - 8.692e - 03] 
y[6] -0.1510 5.472e- 03 -27.601 1.093e- 167 [-0.162, - 0.140] 

yl7]  - 0.0994 2.407e- 03 - 41.290 0.000 [ - 0.104, - 9.468e- 02] 
y[8] 0.0128 2.117e- 03 6.043 1.510e- 09 [8.643e - 03,1.694e - 02 


Volatility Model 
coef std err t P»|t| 95.0% Conf. Int. 


omega  6.1193e- 05 3.817e- 10  1.603e-* 05 0.000 [6.119e - 05,6.119e - 05] 
alpha[1] 1.6797e- 03 9.523e-04 1.764 7.776e- 02. [- 1.868e- 04,3.546e - 03] 
alpha[2] 0.4667 2.652e- 02 17.596 2.635e- 69  [ 0.415, 0.519] 
alpha[3] 0.2340 6.865e- 03 34.080 1.458e- 254 [ 0.221, 0.247] 
alpha[4] 0.2976 2.388e- 02 12.465 1.159e-35  [ 0.251, 0.344] 

res.params 


Const 0.001612 
y[1] 0.116297 
y[2] - 0.098217 
y[3] - 0.117130 
y[4] 0.039414 
y[5] - 0.014911 
y[6] -0.151019 
y[7]  - 0.099402 
y[8] ^ 0.012792 


omega 0.000061 
alpha[1] 0.001680 
alpha[2] 0.466721 
alpha[3] 0.233962 
alpha[4] 0.297637 


Name: params, dtype: float64 


可 以 看 出 ,建立 的 模型 为 
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rı =0. 0016 十 0. 1163a, 一 0. 0982a-: — 0. 1171a,-: + 0. 0394a 3 一 
0. 0149a,- 一 0.01510a,-s — 0. 0994a,—s 十 0.0128a 
o —0. 0006 + 0. 0017a2., 十 0. 4667a2 ; 4- 0. 2340a? 4 十 0.2976a2 ， 
从 上 面 的 模型 可 以 看 出 ,上 证 指数 的 日 收益 率 期 望 大 约 在 0.16%。 模 型 的 R-squared 
较 小 , 拟 合 效果 一 般 。 
4. ARCH 模型 的 预测 
先 来 看 整体 的 预测 拟 合 情 况 : 


res.hedgehog plot() 


预测 拟 合 结果 如 图 7-23 所 示 。 
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图 7-23 预测 拟 合 结果 


可 以 看 出 ,虽然 具体 值 差距 挺 大 ,但 是 均值 和 方差 的 变化 相似 。 下 面 再 看 最 后 10 个 数 
据 的 预测 情况 : 


len(train) 

479 

pre = res.forecast(horizon = 10, start = 478). iloc[478] 
plt.figure(figsize- (10,4)) 

plt. plot(test, label = 'realValue') 

pre. plot(label = 'predictValue') 

plt. plot(np. zeros(10), label = 'zero') 

plt. legend(loc = 0) 


最 后 10 个 数据 的 预测 拟 合 结果 如 图 7-24 所 示 。 
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可 以 看 出 ,如 果 只 看 涨 跌 , 预 测 涨 跌 的 正确 率 为 60% ,当然 ,模型 更 重要 的 功能 是 预测 
波动 率 , 这 将 在 7.7 节 介 绍 


7.7 广义 自 回 归 条 件 异 方差 模型 GARCH 及 波动 率 预测 


虽然 ARCH 模型 简单 ,但 为 了 充分 刻画 收益 率 的 波动 率 过 程 ,往往 需要 很 多 参数 ,例如 
上 面 用 到 ARCH(4) 模 型 ,有 时 会 有 更 高 阶 的 ARCH(m) 模 型 。 因 此 ,Bollerslev 于 1986 年 
提出 了 一 个 推广 形式 , 称 为 广义 的 ARCH 模型 (Generalized ARCH,GARCH)。 

4 aSr, p Ht PAWAR, Ea MEFR: 


a, = o£ 0? = a, + at. :十 »r (o7 0 — i0 Ono 20, A 1 


其 中 ,e, 是 均值 为 0、 方差 为 1 的 独立 同 分 布 的 随机 变量 序 列 。 通 常 假定 其 服从 标准 正 态 分 
布 或 标准 学 生 t 分布; o 为 条 件 异 方差 。 则 称 a, 服 从 GARCH(m,s) 模 型 。 可 以 发 现 该 模 
型 与 ARMA 模型 很 相似 。 


7.7.1 GARCH 模型 的 建立 


GARCH 模型 与 前 面 的 ARCH 模型 建立 过 程 类 似 ,不 过 GARCH(m,s) 的 定 阶 较 难 ,一 
般 使 用 低 阶 模型 ,如 GARCH(1,1) .GARCH(2,1) .GARCH(1,2) 等 。 

下 面 以 前 面 的 数据 为 例 构建 GARCH 模型 ,均值 方程 为 AR(8) 模 型 ,波动 率 模型 为 
GARCH(1,1)。 


train = data[: - 10] 
test = data[ -10:] 
am = arch. arch_model( train, mean = 'AR',lags = 8, vol = 'GARCH') 
res = am.fit() 
Iteration: 1, Func. Count: 14, Neg. LLF: — 1302.57526851 
Positive directional derivative for linesearch (Exit mode 8) 
Current function value: - 1302.57526856 
Iterations: 5 
Function evaluations: 14 
Gradient evaluations: 1 


res. summary( ) 
AR — GARCH Model Results 


Dep. Variable:y R- squared: 0.068 

Mean Model:AR Adj. R- squared: 0.052 

Vol Model:GARCH Log - Likelihood: 1302.58 

Distribution:Normal AIC: — 2581.15 

Method:Maximum Likelihood BIC: — 2531.29 
No. Observations:471 

Date:Fri, Feb 24 2017 Df Residuals: 459 

Time:09:28:52 Df Model: 12 

Mean Model 


coef std err t P»|t| 95.0 & Conf. Int. 


93. 
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Const 1.1473e- 03 1.905e- 09 
y[1] 0.1486 2.489e— 03 
y[2] — 0.0925 3.2175e- 03 
y(3] — 0.0205 2.944e- 03 
yla] 0.1180 2.778e- 03 
y[5] -8.8268e- 05 2.874e- 03 
y[6] - 0.0751 2.201e- 03 
y[7] 0.0268 2.786e— 03 
y[8] 0.0974 2.434e— 03 
Volatility Model 
coef std err t P>|t| 95.0% Conf. Int. 

omega 6.8214e- 06 3.164e- 24 
alpha[1] 0.1000 4.950e- 04 
beta[1] 0.8800 3.933e- 04 
res.params 

Const 0.001147 

y[1] 0.148609 

y[2] — 0.092510 

y[3] — 0.020519 

y(4] 0.118050 

y[5] — 0. 000088 

y[6] — 0.075066 

y[7] 0.026833 

y[8] 0.097354 

omega 0.000007 
alpha[1] 0.100000 
beta[1] 0.880000 


Name: params, dtype: float64 


由 此 得 到 波动 率 模型 : 


.023e+05 
7311 
.252 
.969 
.495 
.071e- 02 
.099 
.630 
.994 


2.156e* 18 
202.039 
2237.305 


000 [1.147e- 03,1.147e - 03] 
.000 [ 0.144, 0.153] 

.358e- 175 [ - 9.893e - 02, - 8.609e - 02] 
.194e- 12 [- 2.629e- 02, - 1.475e - 02] 
.000 [ 0.113, 0.123] 

.976 [ - 5.722e - 03,5.545e - 03] 
.622e- 255 [ - 7.938e - 02, - 7.075e - 02] 
.972e- 22 [2.137e- 02,3.229e - 02] 
.000 [9.258e - 02, 0.102] 


0.000  [6.821e- 06,6.821e- 06] 
0.000  [9.903e- 02, 0.101] 
0.000 [ 0.879, 0.881] 


o; = 0. 000007 +0. 1a, +0. 8807-1 
画 出 标准 化 残 差 与 原始 收益 率 序列 图 ; 


res.plot() 
plt.plot(data) 


观察 图 7-25, 上 图 为 标准 化 残 差 ,近似 平稳 序列 ,说 明 模 型 在 一 定 程度 上 是 正确 的 ; 下 
图 给 出 了 原始 收益 率 序列 和 条 件 异 方差 序列 ,可 以 发 现 条 件 异 方差 很 好 地 表现 出 了 波动 率 。 


再 画 出 还 原 序列 图 : 


res.hedgehog plot() 


观察 图 7-26 可 以 发 现 , 在 方差 的 还 原 上 效果 还 是 不 错 的 。 
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图 7-25 标准 化 残 差 与 原始 收益 率 序列 
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图 7-26 还 原 序列 
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7.7.2 波动 率 预测 

7.7.1 节 的 模型 直接 预测 了 收益 率 ,然而 直接 预测 收益 率 准确 度 并 不 是 很 高 ,因此 很 多 
时 候 GARCH 模型 主要 用 来 预测 波动 率 , 根 据 上 面 建立 的 波动 率 模型 ; 

0; = 0. 000007 4- 0. la. 十 0.88o 
可 以 按照 建立 好 的 模型 一 步 步 计算 。 
根据 模型 
r, —0. 00115 十 0.14861a, — 0.09251a,1 — 0. 02052a,.; 十 0. 11805a, -3 一 
0. 00009a,.., — 0. 07507a,-5 — 0. 02683a, es + 0. 09735a, 

先 计 算 a, 的 预测 值 : 


res. params 
Const 
Y[1] 
Y[2] 


0.001147 
0.148609 
— 0.092510 


y[3] -0.020519 
y[4] 0.118050 
y[5] | - 0.000088 
y[6] | - 0.075066 
y[7] 0.026833 
y[8] 0.097354 
omega 0.000007 
alpha[1] 0.100000 
beta[1] 0.880000 


Name: params, dtype: float64 
需要 提取 均值 方程 的 系数 向 量 w, 青 逐个 计算 a, 最 后 10 个 值 : 


ini = res.resid[ -8:] 
a = np.array(res.params[1:9]) 
w 7 a[::-1] 井 系数 
for i in range(10) : 
new = test[i] - (res.params[0] + w.dot(ini[ ~- 8:])) 
ini = np.append(ini, new) 
print len(ini) 
at pre = ini[ -10:] 
at pre2 - at pre* *2 
at pre2 
18 
array([ 2.42201049e - 05, 3.65774651e- 04, 1.20677460e - 07, 
4. 28085034e - 05, 5.38187170e - 05, 1.21955584e - 05, 
8.81650985e - 04, 1.56531678e - 04, 5.12749562e - 06, 
1.55449939e - 04]) 


接着 根据 波动 率 模型 预测 波动 率 : 
ini2 = res.conditional volatility[ -2:] 井 波动 率 模型 中 的 两 个 条 件 异 方差 值 


for i in range(10) : 
new = 0.000007 + 0.1*at pre2[i] + 0.88* ini2[ - 1] 
ini2 = np.append(ini2, new) 
vol pre = ini2[ - 10:] 
vol pre 
array([ 0.01371429, 0.01211216, 0.01066571, 0.00939711, 0.00828183, 
0.00729623, 0.00651585, 0.0057566, 0.00507332, 0.00448707]) 


将 原始 数据 ,条件 异 方差 拟 合 数据 及 预测 数据 一 起 画 出 来 ,分 析 波 动 率 预测 情况 。 


plt.figure(figsize= (15,5)) 

plt.plot(data, label = 'origin data') 

plt.plot(res.conditional volatility, label = 'conditional volatility') 
x= range(479, 489) 

plt.plot(x,vol pre, '.r',label- 'predict volatility') 
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plt. legend( loc = 0) 


从 图 7-27 可 以 看 出 ,对 于 接 下 来 一 两 天 的 波动 率 预测 较为 接近 ,随后 几 天 的 预测 值 逐 
渐 偏 小 。 


— origin data 
— conditional volatility| 
* * predict. volatility 


0 100 200 300 400 500 
图 7-27 原始 数据 条件 异 方差 拟 合 数据 及 预测 数据 


还 有 很 多 扩展 的 或 改进 的 模型 ,如 求 和 GARCH、GARCH-M 模型 .指数 GARCH, 
EGARCH 模型 等 。 对 于 波动 率 模型 ,还 有 比较 常用 的 随机 波动 率 模型 等 ,有 兴趣 的 读者 可 
以 进一步 研究 。 


练习 题 


对 本 章 中 例题 的 数据 文件 ,使 用 Python 重新 操作 一 遍 。 


* 中 国 股市 分 析 及 其 
xn * Python Rz Fi 


@ o-o-o 


8.1 股票 的 基本 信息 
首先 导入 分 析 中 要 用 到 的 库 ， 


import pandas as pd 

from pandas import Series, DataFrame 

import numpy as np 

import matplotlib. pyplot as plt 

import seaborn as sns 

sns.set style( 'whitegrid') # darkgrid,whitegrid 
from datetime import datetime 


下 面 以 600050. XSHG 为 例 介 绍 将 Python 应 用 于 股票 分 析 的 方法 。 


data = DataAPI. MktEqudGet(secID = u"",ticker =u"600050",beginDate = u"" , endDate = u"", isOpen 
field = u" secID, secShortName, tradeDate, openPrice, highestPrice, lowestPrice, closePrice, 
turnoverVol",pandas = "1") 
data hou = DataAPI. MktEqudAdjAfGet ( secID = u"", ticker = u" 600050", tradeDate = u"", isOpen = 
beginDate = u"", endDate = u"", field = u"secID, tradeDate, closePrice",pandas = "1") 
data hou = data hou.rename(columns = ('closePrice':'Adj closePrice']) 
data new = pd.merge(data,data hou,on- 'tradeDate') 
data new = data new.set index('tradeDate') 
data newl = data new.copy() 
data newl.head().append(data newl.tail()) 

tradeDate secID x secShortName openPrice highestPrice lowestPrice closePrice turnoverVol secID y 
Adj closePrice 


2002-10-09 600050.XSHG 中 国联 通 3.05 3.15 2.86 2.87 1304738300 600050.XSHG 2.870 
2002-10-10 600050.XSHG 中 国联 通 2.83 2.89 2.79 2.83 202927104 600050.XSHG 2.830 
2002-10-11 600050.XSHG 中 国联 通 2.85 2.96 2.83 2.94 173135920 600050.XSHG 2.940 
2002-10-14 600050.XSHG 中 国联 通 2.96 3.02 2.94 3.01 178761088 600050.XSHG 3.010 
2002-10-15 600050.XSHG 中 国联 通 3.01 3.01 2.96 2.98 90834152 600050.XSHG 2.980 
2017-02-17 600050.XSHG 中 国联 通 6.69 6.71 6.48 6.50 210522605 600050.XSHG10.088 
2017- 02-20 600050.XSHG 中 国联 通 6.45 6.59 6.41 6.54 125281173 600050.XSHG10.150 
2017-02-21 600050. 6.52 6.68 6.50 6.59 132291567 600050.XSHG10.227 
2017-02-22 600050. 6.57 6.64 6.53 6.59 94923070 600050. XSHG10. 227 
2017-02-23 600050. 6.58 6.61 6.52 6.55 84847924 600050. XSHG10. 165 


data newl.describe() 
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# 简 单 的 描述 性 统计 分 析 
openPrice highestPrice lowestPrice closePrice turnoverVol Adj closePrice 
count 3492.000000 3492.000000 3492.000000 3492.000000 3.492000e-* 03 3492.000000 
mean 4.706982 4.795951 4.625495 4.771217 1.575593e + 08 6.615731 
std 1.987839 2.053475 1.926265 1.937816 1.721244e + 08 3.076444 
min 0.000000 0.000000 0.000000 2.200000  0.000000e + 00 2.586000 
25% 3.230000 3.270000 3.200000 3.240000 5.666951e +07 3.861000 
50% 4.295000 4.380000 4.250000 4.350000 9.853506e + 07 6.325500 
75% 5.750000 5.860000 5.650000 5.780000 1.852211e-* 08 8.320000 
max 13.130000 13.500000 12.850000 13.080000  1.721668e-* 09 18.403000 
# 基 本 信息 
data newl.info() 
# 查 看 全 部 


< class 'pandas. core. frame. DataFrame'» 
Index: 3492 entries, 2002 - 10 - 09 to 2017 - 02 - 23 
Data columns (total 9 columns): 


secID x 3492 non- null object 
secShortName 3492 non- null object 
openPrice 3492 non- null float64 
highestPrice 3492 non- null float64 
lowestPrice 3492 non- null float64 
closePrice 3492 non- null float64 
turnoverVol 3492 non- null int64 
secID y 3492 non- null object 
Adj closePrice 3492 non- null float64 


dtypes: float64(5), int64(1), object(3) 

memory usage: 272.8 * KB 

H 股票 收盘 价 走势 (图 8-1) 

data newl['Adj closePrice']. plot(legend- True, figsize= (14,6)) 


— Adj closePrice 
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8-3 股票 收盘 价 走势 


# 成 交 量 走势 (图 8-2) 
data newl[ 'turnoverVol'].plot(legend = True, figsize = (14,6)) 
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一 tumoverVol 


0.0* 
2002-10-09 2004-11-02 2006-11-23 2008-12-11 2010-12-31 — 2013-01-22 . 2015-02-13 
tradeDate 


8-2 成交 量 走势 


# 移 动 平均 线 走势 (图 8-3) 
ma_day = [10,20,50] 


for ma in ma_day: 
column name = "MA for % s days" $ (str(ma)) 


data newl[column name] = pd.rolling mean(data newl['Adj closePrice'],ma) 


data newl[['Adj closePrice', 'MA for 10 days', 'MA for 20 days', 'MA for 50 days']]. plot(subplots = 
False, figsize- (14,6)) 
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图 8-3 ”移动 平均 线 走势 


# 股票 每 天 的 百分比 变化 (图 8-4) 
data newl[ 'Daily Return'] = data newl['Adj closePrice'].pct change() 


data newl[ Daily Return'].plot(figsize- (14,6),legend- True, linestyle = '-- ', marker = 'o') 
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图 8-4 ”股票 每 天 的 百分比 变化 


# 核 密度 图 (图 8-5) 
sns.kdeplot(data newl[ 'Daily Return'].dropna(),color = "#4878cf") 


2015-02-13 


— Daily Return 


图 8-5 核 密度 图 


# 平 均 收益 直方 图 (图 8-6) 
data newl[ Daily Return']. hist(color =" 井 4878cf") 
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sns.distplot(data newl[ Daily Return'].dropna(),bins - 100, color = 
40 
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图 8-7 直方 图 与 seaborn 的 核 密 度 图 的 组 合 图 


下 面 以 600050. XSHG、000651. XSHG,600158. XSHG 和 600115. XSHG 为 例 , 介 绍 分 
析 多 只 股票 的 方法 。 


# 后 复权 

data 600050 = DataAPI. MktEqudAdjAfGet(secID = u"", ticker = u" 600050" , tradeDate = u"", isOpen 
beginDate = u" 20050325" , endDate = u"" , field = u"tradeDate, closePrice", pandas = "1") 

data 000930 = DataAPI. MktEqudAdjAfGet(secID = u"", ticker = u" 000930" , tradeDate = u"", isOpen = "", 
beginDate = u" 20050325" , endDate = u"", field = u"closePrice", pandas = "1") 

data 600158 = DataAPI. MktEqudAdjAfGet(secID = u"", ticker = u" 600158" , tradeDate = u"", isOpen = "", 
beginDate = u" 20050325" , endDate = u"", field = u"closePrice", pandas = "1") 

data 600115 = DatahPI. MktEquddjAfGet(secID = u"", ticker  u" 600115", tradeDate = u"", isOpen = "", 
beginDate = u" 20050325" , endDate = u"", field = u"tradeDate, closePrice", pandas = "1") 


data 600050 = data 600050.rename(columns = ('closePrice':'600050']) 
data 000930 = data 000930.rename(columns = ('closePrice':'000930']) 
data 600158 = data 600158.rename(columns = ('closePrice':'600158')) 
data 600115 = data 600115.rename(columns = ('closePrice':'600115')) 


data all = pd.concat([data 600050,data 000930,data 600158],axis- 1) 
data all = pd.merge(data all,data 600115,0n- 'tradeDate') 

data alll = data all.set index('tradeDate') 

data all2 = data alll.copy() 

data all2.head().append(data all2.tail()) 


600050 000930 600158 600115 
tradeDate 


2005 - 03-25 2.924 13.982 10.752 3.161 
2005 - 03 - 28 2.924 13.827 10.596 3.121 
2005 - 03- 29 2.892 14.071 10.482 3.131 
2005 - 03 - 30 2.839 14.115 9.431 3.151 


2005-03-31 2.818 13.827 9.133 3.211 
2017-02-17 10.088 76.849 127.444 9.305 
2017 - 02-20 10.150 77.307 129.703 9.507 
2017-02-21 10.227 78.450 132.350 9.507 
2017-02-22 10.227 83.825 130.801 9.534 
2017 - 02 - 23 10.165 81.652 129.833 9.426 


# 列 出 每 个 公司 的 每 日 收盘 价 的 百分数 变化 , 即 涨幅 或 者 跌幅 ,可 以 据 此 评估 其 涨幅 前 景 
tech rets = data all2.pct change() 
tech rets. head() 

600050 000930 600158 600115 


tradeDate 
2005-03-25 NaN NaN NaN NaN 
2005 - 03 - 28 0.000000 — 0.011086 — 0.014509 — 0.012654 
2005-03-29  Á- 0.010944 0.017647 — 0.010759 0.003204 
2005- 03-30 - 0.018326 0.003127 — 0.100267 0.006388 
2005-03-31 一 0.007397 — 0.020404 — 0.031598 0.019042 


print(tech rets.mean()) 
print( ' 平 均值 都 大 于 0') 
600050 0.000749 
000930 0.001160 
600158 0.001594 
600115 0.000881 
dtype: float64 

# 查 看 全 部 

600050 0.000804 
000930 0.001172 
600158 0.001697 
600115 0.000907 
dtype: float64 
平均 值 都 大 于 0 

# 一 只 股票 自身 的 线性 相关 系数 ,图 8-8 和 图 8-9 表现 的 是 同一 事物 ,但 kind 和 color 指定 的 值 不 同 
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图 8-8 一 只 股票 自身 的 线性 相关 系数 ( 散 点 形式 ) 
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pearsonr-l;p-0 * F 


0.05 


0.00 


000930 


-0.05 


-0.10* n 
-0.10 -0.05 0.00 0.05 0.10 


000930 
8-9 一 只 股票 自身 的 线性 相关 系数 (六 边 形 形 式 ) 
sns. jointplot('000930', '000930', tech rets,kind- 'scatter',color = 'seagreen') 
sns. jointplot('000930', '000930', tech rets,kind- 'hex',color- 'r') 
# 不 同 股票 的 线性 相关 系数 (图 8-10) 
sns. jointplot('000930', '600115', tech_rets, kind = 'scatter') 


albe. 


pearsonr-0.4;p-4.6e-113. 


600115 


-0.1 


-0.2 
-0.15 -0.10 -0.05 0.00 0.05 0.10 0.15 
000930 


图 8-10 不 同 股票 的 线性 相关 系数 
形态 的 相关 性 如 图 8-11 所 示 。 
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图 8-11 形态 的 相关 性 


# pairplot 和 pairgrid 用 于 成 对 比较 不 同 数据 集 间 的 相关 性 ,对 角 线 位 置 是 该 数据 集 的 直方 图 # 
# 如 图 8-12 和 图 8-13 Eros # 
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图 8-12 4 个 公司 两 两 成 对 比较 的 散 点 图 
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图 8-13 4 个 公司 两 两 成 对 比较 的 核 密 度 图 和 散 点 图 


sns. pairplot(tech rets.dropna()) 
returns fig = sns.pairgrid(tech rets.dropna()) 


# 右 上 角 散 点 图 

returns fig.map upper(plt. scatter, color = 'purple') 
# 左 下 角 核 密度 图 

returns_fig. map_lower(sns. kdeplot, cmap = 'cool d') 
# 对 角 线 直 方 图 


returns fig.map diag(plt.hist,bins = 30) 

# 原 股票 数据 的 分 析 ( 图 8-14) 

returns fig = sns.PairGrid(data all2) 

returns fig.map upper(plt.scatter,color = 'purple') 
returns fig.map lower(sns.kdeplot, cmap = 'cool d') 
returns fig.map diag(plt.hist,bins = 30) 


Z 
ES 

EB 
El 

5 

0 

150 

员 100 
z 
E 
E] 

50 

0 

250 

200 

器 150 
8 

2 100 

50 

0 

30 

25 

2 20 
z 

$a5 


$83 中 国 股市 分 析 及 其 Python 应 用 


0 5 10 15 20 25 -50 0 50 100 150 200 -50 0 50 100 1501200 250 300 


600050 000930 600158 


图 8-14 原 股票 数据 的 分 析 


8.2 股票 收益 风险 分 析 


本 节 介 绍 股票 收益 风险 分 析 的 方法 。 


rets = tech rets.dropna() 
area = np.pi * 20 
plt.scatter(rets.mean(), rets.std(),alpha - 0.5,s - area) 
plt.xlabel('Expected returns') 
plt. ylabel( 'Risk') 
# 分 别 以 rets 的 平均 值 和 标准 差 为 x、y $ 
for label, x, y in zip(rets. columns, rets.mean(), rets. std()): 
plt.annotate( 
label, 
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xy = (x, y), xytext = (50, 50), 
textcoords = 'offset points', ha = 'right', va = 'bottom', 
arrowprops = dict(arrowstyle = '- ', connectionstyle = 'arc3,rad- - 0.3")) 
由 图 8-15 可 以 看 出 ,600158 的 预计 收益 要 高 于 其 他 3 家 公司 ,但 是 风险 值 也 高 于 其 他 
3 家 公司 。 
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图 8-15 收益 风险 分 析 


# 分 析 之 前 看 一 下 基本 信息 ,以 600050. xSHG 为 例 ,如 图 8-16 所 示 
sns.distplot(data newl[ Daily Return'].dropna( ),bins = 100, color = "b") 
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图 8-16 600050 的 基本 信息 


# 百 位 分 数 ,95% 的 置信 和 度 
rets[ '600050']. quantile(0.05) 
# 查 看 全 部 

— 0.035680381757177471 


-天 的 损失 不 会 超过 0. 0357。 如 果 有 一 百 万 元 的 投资 ,一 天 5% VaR 为 0. 0357X 
1000 000—35 700 JE, 
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8.3 基于 风险 价值 的 蒙特 卡 洛 方法 


days = 365 

dt = 1./days 

mu = rets.mean()['600050'] 
sigma = rets.std()['600050'] 


def stock monte carlo(start price, days, mu, sigma): 
price = np.zeros(days) 
price[0] = start price 
shock 7 np.zeros(days) 
drift = np.zeros(days) 


for x in xrange(1, days) : 
Shock[x] = np.random.normal(loc- mu * dt, scale- sigma * np.sqrt(dt)) 
drift[x] = mu * dt 
price[x] = price[x- 1] + (price[x- 1] * (drift[x] + shock[x])) 
return price 
start price - 2.924 
#100 次 蒙特 卡 洛 模拟 (图 8-17) 
for run in xrange(100) : 
plt. plot( stock_monte_carlo(start_price days, mu, sigma) ) 
plt.xlabel("Days") 
plt. ylabel("Price") 
32 
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图 8-17 100 次 蒙特 卡 洛 模拟 


#10 000 次 蒙特 卡 洛 模拟 (图 8-18) 
runs = 10000 
simulations = np.zeros(runs) 
np.set printoptions(threshold- 5) 
for run in xrange( runs) : 
simulations[run] = stock monte carlo(start price, days, mu, sigma) [days - 1]; 


q 7 np.percentile(simulations, 1) 
plt.hist(simulations, bins = 200) 
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Final price distribution for 600050 after 365 days 
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图 8-18 10000 次 蒙特 卡 洛 模拟 
plt.figtext(0.6, 0.8, s- "Start price: %.2f" * start price) 
plt.figtext(0.6, 0.7, "Mean final price: *.2f" % simulations.mean()) 
plt.figtext(0.6, 0.6, "VaR(0.99): $.2f" * (start price - q,)) 
plt.figtext(0.15, 0.6, "q(0.99): %.2f" % q) 
plt.axvline(x- q, linewidth- 4, color = 'r') 
plt.title(u"Final price distribution for 600050 after % s days" % days, weight = 'bold') 
收益 风险 评估 结果 是 你 购买 的 股票 的 风险 为 0. 16 元 ( 约 99% 的 时 间 里 ,10 000 次 蒙特 
卡 洛 模拟 的 结果 )。 


练习 题 


对 本 章 中 的 例题 数据 ,使 用 Python 重新 操作 一 遍 。 


: 机 器 学 习 神 经 网 络 算法 
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使 -ee-e 


9.1 BP 神经 网 络 的 拓扑 结构 


人 工 神经 网 络 是 在 生物 神经 系统 的 启发 下 发 展 起 来 的 一 种 信息 处 理 方法 。 它 不 需要 构 
建 任何 数学 模型 ,只 靠 过 去 的 经 验 来 学 习 , 可 以 处 理 模 糊 的 、 非 线性 的 含有 噪声 的 数据 ,可 
用 于 评价 预测、 分 类 ,模式 识别 ,过 程控 制 等 各 种 数据 处 理 的 场合 。 人 工 神经 网 络 理论 研究 
发 展 相当 迅速 , 据 统计 ,到 目前 为 止 已 经 提出 了 30 多 种 神经 网 络 , 其 中 最 流行 的 有 十 几 种 。 
BP 神经 网 络 (Back Propagation, 反 向 传播 ) 是 当前 应 用 最 为 广泛 的 一 种 神经 网 络 , 它 的 结构 


简单 ,工作 状态 最 易于 硬件 实现 。 其 应 用 范围 主要 有 识 p 
别 分 类 评价、 预测、 非 线 性 映射 复杂 系统 仿真 等 。 因 输出 层 
此 ,本 章 应 用 BP 神经 网 络 来 研究 现金 流量 因素 分 析 的 分 
类 问题 。 隐 含 层 
BP 神经 网 络 是 典型 的 多 层 网 络 ,分 为 输入 层 、 隐 含 
层 和 输出 层 , 层 与 层 之 间 多 采用 全 互 连 方式 ,同一 层 单元 输入 层 
之 间 不 存在 相互 连接 ,BP 神经 网 络 的 拓扑 结构 如 图 9-1 人 
所 示 。 图 9-1 BP 神经 网 络 拓扑 结构 图 


设 输入 向 量 为 XER" X Ga a n0 8 RRRA 
神经 元 ZER,,Z 一 (zi ,xxz)7; 输出 层 有 神经 元 YE R",Y 二 (yi ,yo，… ,ym)"。 设 输入 层 
与 隐 含 层 之 间 的 连接 权 为 ws; REA G: 隐 含 层 与 输出 层 之 间 的 连接 权 为 wi REW Oro 
各 层 神经 元 的 输出 满足 


zj 一 4 pL -0 ] (9-D 


l 
n= 4 D waz; — aJ (9-2) 


函数 f(x ) 满 足 
2 
loce 
如 果 近 似 映 射 函 数 为 下 ,X 为 n 维 空间 的 有 界 子 集 ,F(z) 为 m 维 空 间 的 有 界 子 集 ,Y 一 
F(z) 可 写 为 


fGQj) (9-3) 


FXCR'—YCR" 
jid PARRARI Ge! ,，y'),(z?,y?),…,(z?,y*) 进 行 训练 ,目的 是 获得 神经 元 之 
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间 的 连接 权 wj os FIBI 0; 0, C1 1.2. n3 j— 1.2.0 上 二 1,2,…,m) ,使 其 映射 获 
得 成 功 , 即 寻 找 一 个 下 ,进行 n 维 输入 向 量 到 xm 维 输出 向 量 空间 的 变换 : 
FF:R" >R” Y= FG) 
训练 后 获得 连接 权 ,对 其 他 不 属于 p(p 二 1.2,…,p) 的 久子 集 进行 测试 ,使 其 结果 仍然 
满足 正确 的 映射 。 


9.2 BP 神经 网 络 的 学 习 算法 


BP 神经 网 络 学 习 是 典型 的 有 导师 学 习 , 其 学 习 算法 是 对 简单 的 6 学 习 规则 的 推广 和 发 
展 。 设 输入 学 习 样 本 为 p 个 , 即 t atc^ ORIS HOS BOO T! ,T?,…,T? ,学习 
算法 是 根据 实际 的 输出 y! ,y?，,…,y? S T! ,T?,…,T? 的 误差 来 修改 其 连接 权 和 闽 值 ,使 y* 
与 要 求 的 T^ 尽 可 能 接近 。 

为 便于 讨论 ,将 阔 值 写 人 连接 权 中 ,约定 : O = woj Oe = wo ,zo lm 1, 则 式 (9-1) 
和 式 (9-2) 可 改写 为 


zj = f Èa: (9-1a) 
l 

n= 1 Muss) (9-1b) 
j=0 


当 第 p 个 样本 输入 到 图 9-1 所 示 的 网 络 时 得 到 输出 y,! 二 0,1,…,m, 其 误差 为 各 输出 
单元 误差 之 和 ,满足 


E= ix at — yt» (9-4) 
则 网 络 总 误差 为 
E Xe, : x at — t (9-5) 
设 ws 为 图 9-1 所 示 的 网 络 中 任意 两 个 神经 元 之 间 的 连接 权 ,ws 也 包括 准 值 在 内 ,E 为 
一 个 与 ws 有关 的 非 线 性 误差 函数 。 
令 
ix Gt — yt* — E, (9-6) 
E = ME, = 3e (QV. t* a?) (9-7) 
w= - se aa (9-8) 


6 学 习 规则 的 实质 是 利用 梯度 最 速 下 降 法 ,使 权 值 沿 误差 函数 的 负 梯 度 方向 改变 。 若 
BUB. zw 的 修正 值 记 为 Awa , 则 


Awa cc E. 
LN 


(9-9) 


4 g 为 运算 的 迭代 次 数 ,由 式 (9-5) 和 梯度 最 速 下 降 法 ,可 得 到 BP 网 络 各 层 连 接 权 的 


aw 


wa(g +1) 一 wa Ce) — 1 w, 
j 


(9-10) 
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wet DS WO 


式 中 7 为 学 习 因 子 。 
从 式 (9-10) 可 知 ,zux 是 7 个 神经 元 与 输出 层 第 & 个 神经 元 之 间 的 连接 权 , 它 只 与 输出 
层 中 的 一 个 神经 元 有 关 , 将 式 (9-5) 代 入 式 (9-10) ,并 利用 式 (9-3), 有 


ow 9E, 2y? Iu? p 3b) yb - 
s M3 a e Daty YF Cif) (9-12) 


式 中 , u? = 2w x? ,zx? 为 样本 输入 网 络 时 >; 的 输出 值 。 


ET 
f (Cu?) ne fag — fGi?*)] = yf A — yp (9-13) 
de) 
将 式 (9-13) 3X (9-12 V AGX C9- 100 f 
walg +1) = walg) 21011 (9-14) 


sb. = Gt yD yf (1 一 yf)。 
同 理 可 得 


P 
wy Cr +I) = w (g) d- 22 iz? (9-15) 
p=1 


式 中 ,68 = zf (1 一 xz? pe, 
BP 算法 权 值 修正 系数 可 以 统一 表示 为 
wi H1) = wa (t) + sre (9-16) 
对 于 输出 层 : 
ôy = (Ty — Yu ) f Gu; )[L1 一 fGuj )] 
对 于 隐 含 层 ， 
6% = fan) Ui = fGu)123uwy 


在 实际 应 用 中 ,考虑 到 学 习 过 程 的 收敛 性 ， 学 习 因子 7 取 值 越 小 越 好 。7 值 越 大 ,每 次 
权 值 改 变 越 剧烈 ,可 能 导致 学 习 过 程 发 生 振荡 。 因 此 ,为 了 使 学 习 因 子 取得 足够 大 同时 又 不 
产生 振荡 ,通常 在 权 值 修正 公式 (9-16) 中 再 另 加 一 个 动量 项 a, 得 
wi d-1) = wa (t) t+ nszn Halwa lt) — w: t —1)] (9-17) 
式 中 ,7 为 学 习 因 子 ,a 为 动量 项 , 它 决定 上 一 次 学 习 的 权 值 变化 对 本 次 权 值 更 新 的 影响 程 
HE. 通常 取 0<=y<1,0<a<1。 
通常 用 网 络 的 均 方 根 误差 定量 地 反映 学 习 的 性 能 。 其 定义 为 


2j 22 Gn — yn? 
EW) = | 天生 一 一 
pm 


式 中 ,p 表示 输入 学 习 样 本 数 ,m 表示 网 络 输出 层 单元 数 。 

在 BP 网 络 学 习 过 程 中 ,按照 梯度 最 速 下 降 法 , 均 方 根 误差 应 逐渐 减 小。 由 于 网 络 输 
入 .输出 都 是 实数 值 ,网 络 学 习 能 否 满足 性 能 要 求 不 是 一 个 简单 的 二 值 判断 能 确定 的 ,而 是 
由 网 络 的 实际 输出 与 期 望 输出 的 逼近 程度 决定 的 。 一 般 地 , 当 网 络 的 均 方 根 误差 ECWO fü 


113, 


IRF 0. 1 时 , 则 表明 给 定 输入 样本 学 习 已 满足 要 求 。 当 然 ,E(W) 的 上 限 可 以 根据 具体 应 用 
灵活 设置 。 


9.3 BP 神经 网 络 的 学 习 程序 


BP 神经 网 络 的 学 习 程 序 分 为 两 大 步 ,第 一 步 是 从 网 络 的 输入 层 逐 步 向 输出 层 进行 计 
算 ; 第 二 步 是 对 连接 权 和 阅 值 进行 修改 , 即 反 向 从 输出 层 向 输入 层 进行 计算 和 修改 ,根据 输 
出 层 的 误差 修改 与 输出 层 相 连接 的 权 值 , 然 后 按照 式 (9-14) 、 式 (9-15) 修 改 各 层 的 连接 权 
值 , 直 到 满足 要 求 为 止 。 具 体 的 学 习 流 程 步骤 如 下 。 

CD 初始 化 网 络 及 学 习 参 数 : 初始 的 权 值 W 和 靖 值 0、 学 习 因 子 四 动量 项 a。 

D 在 已 知 p 个 学 习 ( 训 练 ) 样 本 中 按 顺序 抽取 学 习 样 本 ai ata? 输入 到 网 络 输 
AE. 

(3) 按 下 式 计 算 z; M ya: 


2j 1 wes -4) 
i=l 
L 

à 一 1 D waz; I o.) 


式 中 ,n 为 输入 的 样本 个 数 ,0; HAES ce AR «0, 为 隐 含 层 到 输出 层 的 阔 值 ， 
! 为 隐 含 层 的 神经 元 个 数 。 
(4) 求 出 各 层 的 误差 ,对 已 知 样本 的 教师 上 ,有 : 


网 络 初始 化 :于 .On1， 
9& = Gt yD yA — y (9-18) an 
m 1 
08 = Az) >) wn (9-19) 给 定 教师 
k=0 
式 中 ,m 为 输出 层 的 神经 元 个 数 ,本 问题 取 m — 1. Y 


(5) 记 下 学 习 过 的 样本 个 数 , 即 计数 为 p tL MARINA dA 
输出 层 的 输出 Z、 了 
pi 十 1 是 否 达到 了 设 定 的 学 习 样 本 数 p, 如 果 没 有 达到 p. 2 


返回 步骤 (2) 继 续 运算 ; 如 果 达 到 了 ,再 从 第 一 个 学 习 样 — — 
本 开始 让 p 二 1, 进 行 下 一 步骤 。 -— 

(6) fi È (9-18) 与 式 (9-19) 修 改 各 层 的 权 值 和 - = 
i 调整 权 值 


CD 按 新 的 权 值 计算 zx; yv, ME., 
(8) 计算 网 络 的 均 方 根 方差 E(W): 


25 25 py — yp 六 
p k=0 


E(W) = 
其 学 习 流 程 图 如 图 9-2 所 示 。 
9.4 BP 神经 网 络 算法 股票 预测 的 Python 应 用 


import pybrain as brain 
training set- ("20050101", "20130101") 井 训练 集 (8 年 ) 


pm 图 9-2 BP 算法 流程 图 
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testing set = ("20150101", "20150525") # 测 试 集 (2015 上 半年 数据 ) 
universe = ['000001'] ES: ud 

HISTORY =10 # 通 过 前 10 日 数据 预测 
from pybrain. datasets import SupervisedDataSet 

# 建 立 数据 集 


def make training data(): 
ds = SupervisedDataSet(HISTORY, 1) 
for ticker in universe: RJ SERES 
raw data = DataAPI. MktEqudGet(ticker = ticker, beginDate = training set[0], endDate = 
training set[1], field-[ 
'tradeDate', 'closePrice' 5 y B 
], pandas = "1") 
plist = list(raw data['closePrice']) 
for idx in range(1, len(plist) - HISTORY - 1): 
sample = [] 
for i in range(HISTORY) : 
sample.append(plist[idx + i - 1] / plist[idx + i] - 1) 
answer = plist[idx + HISTORY - 1] / plist[idx + HISTORY] - 1 
ds. addSample(sample, answer) 
return ds 
# 建立 测试 集 
def make testing data(): 
ds = SupervisedDataSet(HISTORY, 1) 
for ticker in universe: # 遍 历 每 只 股票 
raw data = DataAPI.MktEqudGet(ticker = ticker, beginDate = testing set[0], endDate= 
testing set[1], field-[ 
'tradeDate', 'closePrice" # 敏感 字段 
], pandas = "1") 
plist = list(raw data[ 'closePrice']) 
for idx in range(1, len(plist) - HISTORY - 1): 
sample - [] 
for i in range(HISTORY) : 
sample.append(plist[idx + i - 1] / plist[idx + i] - 1) 
answer = plist[idx + HISTORY - 1] / plist[idx + HISTORY] - 1 
ds. addSample(sample, answer) 
return ds 
from pybrain. supervised. trainers import BackpropTrainer 
# 构造 BP 训练 实例 
def make trainer(net, ds, momentum = 0.1, verbose = True, weightdecay = 0.01): 
# 网 络 , 训练 集 ,训练 参数 
trainer = BackpropTrainer (net, ds, momentum = momentum, verbose = verbose, weightdecay = 
weightdecay) 
return trainer 
# 开 始 训练 
def start training(trainer, epochs = 15): GER 
trainer. trainEpochs(epochs) 
def start testing(net, dataset): 
return net. activateOnDataset(dataset) 
# 保存 参数 
from pybrain.tools.customxml import NetworkWriter 
def save argunents(net): 


NetworkWriter.writeToFile(net, 'huge data.csv') 
print 'Arguments save to file net. csv' 

from pybrain. tools. shortcuts import buildNetwork 
# 初 始 化 神经 网 络 
fnn = buildNetwork(HISTORY, 15, 7, 1) 
training dataset - make training data() 
testing dataset = make testing data() 
trainer - make trainer(fnn, training dataset) 
start training(trainer, 5) 
save argunents(fnn) 
print start testing(fnn, testing dataset) 
# 查 看 全 部 
Total error: 0.0177777907799 
Total error: 0.000603739628878 
Total error: 0.000467275815115 
Total error: 0.000424982879219 
Total error: 0.000413722447897 
Arguments save to file net.csv 
[[ 3.41259563e - 03] 

[ 1.11977542e - 03] 

[ 2.69423433e - 03] 

[7 1.24834720e - 04] 

[ 2.56993707e - 04] 

[7 1.50984791e- 03] 

[ 3.20002046e - 03] 

[ 5.73708350e - 03] 

[ -1.79920715e - 03] 

[ -1.76277292e- 03] 

[ 4.63274415e - 03] 

[ 5.46423069e - 04] 

[ 2.99153336e - 03] 

[ 5.79329560e - 04] 

[ 2.42593966e - 03] 

[ 2.23921857e - 04] 

[ 2.40107548e - 03] 

[ 8.15670461e - 04] 

[ 5.05212298e - 04] 

[ 1.99809959e - 03] 

[ 1.59179094e - 03] 

[ 2.80679967e - 03] 

[ 2.10166986e - 03] 

[ 1.15393097e - 03] 

[ 3.72298210e - 03] 

[ 1.54164054e - 03] 

[ 4.18063096e - 03] 

[ 2.07232429e - 03] 

[ 3.93290712e - 03] 

[ 1.23958920e - 03] 

[ —3.10360594e - 06] 

[ 1.27711633e- 03] 

[ 1.01650049e - 03] 


[ 1.87323325e - 03] 

[ -9.17682062e- 04] 
[ 1. 77283700e - 03] 

[ 1.66048117e- 03] 

[ 1.86674729e - 03] 

[ 8.39102106e- 03] 

[ 3.65943122e - 03] 

[ 3.12998851e- 03] 

[ 3.81495659e - 03] 

[ 5.66954450e - 03] 

[ 3.02366266e - 03] 

[ 3.26920802e - 03] 

[ 5.39105819e - 04] 
[ 1.14156446e - 03] 
[ 76.71713835e- 04] 
[ 4.19680026e - 03] 
[ 2.27383082e - 03] 
[ 1.01674596e - 03] 
[ -6.81354065e - 05] 
[ 1.44350461e - 03] 
[ 8. 78478209e - 04] 
[ 1.11895286e - 02] 
[ 5.56555781e- 03] 
[ 1.08870130e - 02] 
[ -3.69017688e - 03] 
[ 6.67993777e - 03] 
[ —4.65967625e - 04] 
[ 1.00234774e - 03] 
[ 7.67488775e - 03] 
[ -3.50663712e - 03] 
[ -2.89161149e- 03] 
[ 1.26037343e - 03] 
[ 3.30813523e - 03] 
[ 2.55601954e - 03] 
[ -2.72849466e - 04] 
[ 8.76787358e - 04] 

[ 5.30790396e - 03] 

[ 3.80513920e - 03] 

[ 7.51267641e- 04] 

[ 4.32886681e - 04] 

[ 1.96504218e - 03] 

[ 1.26836751e - 04] 

[ 1.65895257e - 03] 

[ 2.15262693e - 03] 

[ 1.51428306e - 03] 

[ 1.76733054e - 03] 

[ 1.25926911e- 03] 

[ 1.14041500e - 03] 

[ 1.58764973e - 03]] 


练习 题 


对 本 章 中 的 例题 数据 ,使 用 Python 重新 操作 一 遍 。 
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e e o 


使 -ee-e 


本 童 首先 介绍 机 器 学 习 支 持 向 量 机 的 原理 ,然后 基于 机 器 学 习 支 持 向 量 机 进行 大 盘 预 
测 , 主 要 针对 的 是 以 前 几 日 的 蜡烛 图 形态 来 预测 未 来 n 天 的 大 盘 走 势 。 当 然 , 不 可 能 用 图 像 
处 理 方法 来 识别 大 盘 前 几 日 的 走势 ,而 要 使 用 开盘 价 、 收 盘 价 、 最 高 价 、 最 低 价 这 4 个 价格 之 
间 的 距离 百分比 作为 特征 ,选取 前 m 天 这 4 个 价格 之 间 的 距离 百分比 ,预测 未 来 n 天 的 涨 
跌幅 。 
10.1 机 器 学 习 支 持 向 量 机 原理 

要 将 两 类 分 开 ,需要 得 到 一 个 超 平面 。 最 优 的 超 平面 是 e 
到 两 类 的 边缘 达到 最 大 ,边缘 就 是 超 平面 与 离 它 最 近 的 一 点 “所 
的 距离 。 如 图 10-1 Bras z2 7 n «BELA zs 代表 的 超 平面 比 

> 


较 好 。 
将 这 个 超 平面 表示 成 一 个 线性 方程 ,位 于 线 上 方 的 一 


zy 


类 都 大 于 或 等 于 1, 另 一 类 都 小 于 或 等 于 一 1, 如 图 10-2 a 
所 示 。 
点 到 超 平面 的 距离 根据 图 10-3 中 的 公式 计算 。 图 10-1 超 平面 
x E 
» s} g(x)E|. Vx€class 1 OO hy 
g(x)€-1. Vx€class 2 OOO $) 
9 e 
O » 


10-2 分 类 图 图 10-3 距离 计算 


由 此 得 到 计算 总 边缘 的 表达 式 如 下 : 


1 
Vel "wl wl 
目标 是 最 大 化 总 边缘 ,这 就 需要 最 小 化 分 母 , 于 是 该 问题 就 变 成 了 一 个 优化 问题 。 
例如 ,在 图 10-4 中 有 3 个 点 ,找到 最 优 的 超 平面 ,定义 了 权 向 量 为 (2,3) 一 (1.,1)。 
得 到 权 向 量 为 (a,24a)。 将 两 个 点 代入 方程 gCw) —w * x! wy: 代入 (2,3), 令 其 值 为 1; 
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代入 (1,1), 令 其 值 为 一 1, 求 解 出 a 一 2/5., 截 距 wo == 一 11/5, 进 而 得 到 超 平面 的 表达 式 , 如 
图 10-5 所 示 。 


"i Q3) 


权 向 量 
370.3)-01.1)7(222) 


图 10-4 最 优 超 平面 图 10-5 超 平面 的 表达 式 


a 求 出 来 后 ,代入 (a,2a) 得 到 (2/5,4/5) ,这 就 是 支持 向 量 。 
4 


将 a 和 wo 代入 超 平面 的 方程 8(w) 一 w。 x 十 wo m La e Las — DECRE RO 


(Support Vector Machine. SVM), 


10.2 机 器 学 习 支 持 向 量 机 的 应 用 


代码 如 下 : 


import numpy as np 

import pandas as pd 

from matplotlib import pyplot as plt 
from CAL.PyCAL import * 

from sklearn import preprocessing 
from sklearn import cross validation 
from sklearn import datasets 

from sklearn import svm 

import itertools 


lag = 3 ## 滞 后 天 数 ,默认 滞后 3 天 
forward = 3 # 前 看 天 数 ,默认 3 天 
stock = '000001' # 预测 的 指数 ,默认 为 上 证 综合 指数 


fields - ['tradeDate', 'closeIndex', 'openIndex', 'highestIndex', lowestIndex', 'turnoverVol'] 
index = DataAPI. MktIdxdGet (ticker = stock, beginDate = u" 19910101", endDate = u" 20161212", 
field- fields, pandas = "1") 


# 数 据 整 理 

logChange = np.diff(np. log(index[ 'closeIndex'])) 

index = pd.concat([index, pd.DataFrame(logChange,columns = ['logChange'])], axis = 1) 
# 注 意 , 这 里 计算 的 是 未 来 一 天 的 涨幅 


data = index 

featureOriginal = pd.DataFrame() 

featureOriginal['high low'] = (data[ 'highestIndex'] — data[ 'lowestIndex'])/data[ 'lowestIndex'] 
featureOriginal['high close'] = (data[ 'highestIndex'] - data['closeIndex'])/data[ 'closeIndex'] 
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featureOriginal['close low'] = (data['closeIndex'] — data[ 'lowestIndex'])/data[ lowestIndex'] 
featureOriginal['close open'] = (data['closeIndex'] - data[ openIndex'])/data[ 'openIndex'] 
volumeChange = np.diff(np.log(data[ 'turnoverVol'])) 
featureOriginal = pd.concat([featureOriginal, pd.DataFrame(volumeChange, columns = ['volumeChange'])], 
axis - 1) 
featureOriginal['volumeChange'] = featureOriginal[ 'volumeChange']. shift(1) 
featureOriginal = featureOriginal.fillna(0) 
features = [] 

# 形 成 特征 矩阵 
for i in range(lag, len(featureOriginal) +1): 
temp = featureOriginal[i- lag:i] 
temp = list(itertools.chain.from iterable(temp. values. tolist())) 
features. append(temp) 
# 形 成 label 
label pd.rolling sum(index.sort index(ascending = False)['logChange'], forward) 
label = label.sort index(ascending = True).shift( - 1) 
label df - pd.DataFrame(label) 
label df.columns = [ 'logChange'] 
label df['date'] = data['tradeDate'] 
# 通 过 这 里 检查 计算 的 未 来 forward 天 涨幅 是 否 有 问题 
label df['symbol'] = 0 
label df['symbol'] = label df['logChange'].apply(lambda x:1 if x» 0 else 0) 
# symbol 就 是 我 们 要 的 label 


" 


# 由 于 特征 矩阵 是 从 第 lag 天 开始 的 ,因此 要 从 label 中 去 掉 前 lag 天 的 数据 ,再 去 掉 后 面 forward 
# 天 的 Nan 数据 

# 由 于 label 最 后 3 天 没有 数据 ,因此 要 从 特征 矩阵 中 去 掉 最 后 forward 天 的 数据 

label df = label df[lag- 1:len(label_df) - forward] 

label df.reset index(drop = True, inplace = True) 

features = features[:len(features) - forward] 

label = label df['symbol'].values.tolist() 

print len(features) # 这 两 个 list 最 后 要 代入 模型 

print len(label) 


得 到 如 下 结果 : 


6214 

6214 

# 分 类 模型 : 这 里 使 用 的 是 SM 

HUE SVM 模型 

X train,X test, y train, y test = cross validation.train test split(features, label, test 
size = 0.2, random state = 0) 

# 数 据 集 未 标准 化 

clf = svm.SVC().fit(X train, y train) 

print "数据 未 标准 化 准确 率 : € 0.2f" * (clf.score(X test, y test)) 

# 数 据 集 标准 化 

Scaler = preprocessing.StandardScaler().fit(X train) 

X train scaler = scaler.transform(X train) 

clf = svm.SVC().fit(X train scaler, y train) 

X test scaler = scaler.transfornm(X test) 

print "数据 标准 化 后 准确 率 : € 0.2f" % (clf.score(X test scaler, y test)) 
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# 用 K 折 交叉 验证 模型 稳定 性 ,数据 未 标准 化 


Scores = cross validation.cross val score(clf, features, label, cv = 5) 


print scores 

输出 结果 : 

数据 未 标准 化 准确 率 : 0.52 

数据 标准 化 后 准确 率 : 0.53 

[ 0.49437299 0.5237329 0.5237329 0.52334944 0.52334944] 

这 里 看 到 的 只 是 一 个 非常 简单 的 模型 ,机 器 学 习 从 根本 上 说 来 说 去 就 是 两 个 字 一 
特征 。 


练习 题 


对 本 章 中 例题 的 数据 文件 ,使 用 Python 重新 操作 一 遍 。 
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本 章 将 介绍 如 下 内 容 : 

(1) 如 何 使 用 Python 内 置 的 数学 函数 计算 期 权 的 价格 。 
(2) 利用 NumPy 加 速 数值 计算 。 

(3) 利用 SciPy 进行 仿真 模拟 。 

(4) 使 用 SciPy 求解 器 计算 隐 含 波动 率 。 

(5) 使 用 matplotlib 绘制 精美 的 图 形 。 


11.1 期 权 定 价 公式 的 Python 函数 


例如 ,要 知道 ia -只 期 权 的 价格 : 

当前 价 (spot) : 2. 45。 

EE k). s50 

到 期 期 限 Cmaturity); 0.25. 

无 风险 利率 (r) : 0.05. 

波动 率 (vol) : 0.25, 

关于 这 样 的 简单 欧式 期 权 的 定价 ,有 经 典 的 Black-Scholes 公式 : 


Call(S,K,ry,r'o) = SN (di)— Ke™N (d:) <11-1) 
其 中 
r - t 
à InCS/ K) + Xr 4- 0. 5o*)c (11-2) 
oxe 
d; = di — ovr 1-3) 


在 上 面 的 公式 中 ,S 为 标的 价格 ,K 为 执行 价格 ,r 为 无 风险 利率 ,r=T 一 :为 剩余 到 期 
时 间 ,N(z) 为 标准 正 态 分 布 的 累计 概率 密度 函数 ,Call(S,K,r,r'c) 为 看 涨 期 权 的 价格 。 

设置 初始 参数 如 下 : 

spot 一 2. 45 

strike 一 2. 50 

maturity 一 0. 25 

r — 0.05 

vol = 0.25 
观察 式 (11-1) 至 式 (11-3) ,需要 使 用 一 些 数 学 函数 ,这 些 数学 函数 分 为 两 部 分 ， 


CD log、sqrt 和 exp, 这 3 个 函数 可 以 从 标准 库 math 中 找到 。 

(2) 标准 正 态 分 布 的 累计 概率 密度 函数 ,使 用 SciPy 库 中 的 stats. norm. cdf 函数 。 

基于 Black-Scholes 公式 的 期 权 定 价 公 式 , 编制 call option | pricer C spot. strike, 
maturity,r, vol) 函数 如 下 : 


from math import log, sqrt, exp 

from scipy. stats import norm 

def call option pricer(spot, strike, maturity, r, vol): 
di = (log(spot/strike) + (r + 0.5 * vol * vol) * maturity) / vol / sqrt(maturity) 
d2 = dl - vol * sqrt(maturity) 
price = spot * norm.cdf(dl) — strike * exp(- r# maturity) * norm.cdf(d2) 


return price 
可 以 使 用 这 个 函数 计算 我 们 关注 的 期 权 的 价格 : 


print ' 期 权 价格 : % .4f' % call option pricer(spot, strike, maturity, r, vol) 
期 权 价格 : 0.1133 


11.2 使 用 NumPy 加 速 批量 计算 


大 多 数 情况 下 ,我 们 不 止 关心 一 个 期 权 的 价格 ,而 且 关心 组 合 (成 千 上 万 ) 的 期 权 。 随 着 
期 权 组 合 数量 的 增长 ,计算 时 间 也 会 快速 增长 。 本 节 就 来 讨论 计算 时 间 增 长 的 问题 。 


11.2.1 使 用 循环 的 方式 
循环 方式 的 代码 如 下 : 


import time 
import numpy as np 
portfolioSize = range(1, 10000, 500) 
timeSpent = [] 
for size in portfolioSize: 
now = time.time() 
strikes = np.linspace(2.0,3.0,size) 
for i in range(size): 
res = call option pricer(spot, strikes[i], maturity, r, vol) 
timeSpent.append(time.time() — now) 
from matplotlib import pylab 
import seaborn as sns 
from CAL.PyCAL import * 
font.set size(15) 
sns. set(style- "ticks") 
pylab.figure(figsize - (12,8)) 
pylab.bar(portfolioSize, timeSpent, color = 'r', width = 300) 
pylab.grid(True) 
pylab.title(u' 期 权 计 算 时 间 耗 时 (单位 : 秒 )',， fontproperties = font, fontsize = 18) 
pylab. ylabel(u' 时 间 (s)', fontproperties = font, fontsize = 15) 
pylab. xlabel(u' 组 合 数量 ',，fontproperties = font, fontsize = 15) 


运行 上 述 代码 ,可 以 得 到 如 图 11-1 所 示 的 图 形 。 从 图 11-1 中 可 以 看 出 , 随 着 组 合 规模 


的 增长 ,计算 时 间 呈 线性 增长 。 
期 权 计算 时 间 耗 时 (单位 : D) 
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图 11-1 期 权 计算 时 间 


11.2.2 使 用 NumPy 向 量 计算 
NumPy 的 内 置 数学 函数 可 以 应 用 于 向 量 : 


sample = np.linspace(1.0,100.0,5) 
np. exp( sample) 
array([ 2.71828183e + 00, 1.52434373e + 11, 8.54813429e + 21, 4. 79357761e + 32, 2.68811714e + 43]) 


利用 NumPy 的 数学 函数 ,可 以 重 写 计算 公式 call option. pricer. 使 得 它 接 受 向 量 


# 使 用 NanPy 的 向 量 函 数 重 写 Black - Scholes 公式 

def call option pricer nunmpy(spot, strike, maturity, r, vol): 
di = (np.log(spot/strike) + (r + 0.5 * vol * vol) * maturity) / vol / np.sqrt(maturity) 
d2 = dl - vol * np.sqrt(maturity) 
price = spot * norm.cdf(dl) — strike * np.exp(- r*maturity) * norm.cdf(d2) 


return price 
timeSpentNumpy = [] 
for size in portfolioSize: 

now = time.time() 

Strikes = np.linspace(2.0,3.0, size) 


res = call option pricer nunmpy(spot, strikes, maturity, r, vol) 


timeSpentNumpy.append(time.time() - now) 
pylab.figure(figsize = (12,8)) 
pylab.bar(portfolioSize, timeSpentNumpy, color = 'r', width = 300) 


pylab.grid(True) 
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pylab. title(u' 期 权 计算 时 间 耗 时 (单位 : 秒 ) - numpy 加 速 版 '，fontproperties = font, fontsize = 18) 
pylab. ylabel(u' 时 间 (s)', fontproperties = font, fontsize = 15) 


pylab.xlabel(u' 组 合 数量 '，fontproperties = font, fontsize = 15) 


运行 上 面 的 代码 ,可 以 得 到 如 图 11-2 所 示 的 图 形 。 


0.0030 4— + t t 


0.00254 


0.00204 


0.00154 


时 间 /s 


0.00104 


0.0005 


0 2000 4000 6000 8000 10000 
组 合 数量 


图 11-2 改写 后 函数 的 期 权 计 算 时 间 


再 观察 一 下 图 11-2, 虽 然 计算 时 间 仍 然 是 随 着 规模 的 增长 而 近似 线性 增长 ,但 是 增长 


的 速度 要 慢 一 些 。 
对 两 次 计算 时 间 进 行 比 对 ,可 以 更 清楚 地 了 解 NumPy 计算 效率 的 提升 。 代 码 如 下 : 


fig = pylab.figure(figsize = (12,8)) 
ax 7 fig.gca() 
pylab.plot(portfolioSize, np.logl0(timeSpent), portfolioSize, np. log(timeSpentNumpy)) 
pylab.grid(True) 
from matplotlib.ticker import FuncFormatter 
def millions(x, pos): 
"The two args are the value and tick position" 
return '$10^(5$.0f) $ ' & (x) 
formatter - FuncFormatter(millions) 
ax.yaxis.set major formatter(formatter) 
pylab.title(u' 期 权 计 算 时 间 ( 单 位 : #)', fontproperties = font, fontsize = 18) 
pylab. legend([u' 循 环 计 算 '，u'NumPy 向 量 加 速 '], prop = font, loc = 'upper center', ncol = 2) 
pylab. Ylabel(u' 时 间 / 秒 '，fontproperties = font, fontsize = 15) 
pylab.xlabel(u' 组 合 数量 '，fontproperties = font, fontsize = 15) 


运行 上 述 代 码 ,可 以 得 到 如 图 11-3 所 示 的 图 形 。 
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11-3 两 种 方法 的 计算 时 间 对 比 


11.3 使 用 SciPy 做 仿真 计算 


期 权 价格 的 计算 方法 中 有 一 类 称 为 蒙特 卡 洛 方法 。 它 利用 随机 抽样 来 模拟 标的 股票 价 

格 随机 游 走 , 以 计算 期 权 价格 (未 来 的 期 望 )。 假 设 股 票 价格 的 随机 游 走 满足 以 下 公式 : 
dS = rSdt -- o8dW (t) 
利用 仿真 的 方法 可 以 模拟 到 期 日 的 股票 价格 : 
Sr = Soexplr— 0. 50 )T + zo VJT 
这 里 的 = 是 一 个 符合 标准 正 态 分 布 的 随机 数 。 这 样 就 可 以 计算 最 后 的 期 权 价格 : 
price = expC— rT) > ImaxCSz,; — K.0) 
可 以 利用 SciPy 库 获 取 标准 正 态 分 布 的 随机 数 : 


import scipy 

Scipy. random. randn(10) 

array([ 0. 48589959, 0. 01139189, - 0. 07989112, 0. 83710622, - 0.39082336, - 0. 07745921, 
— 0. 38757171, 0. 38351784, 0.92320854, 0.33467714]) 
import scipy 

Scipy. random. randn(10) 

pylab.figure(figsize - (12,8)) 

randomSeries = scipy. random. randn(1000) 
pylab.plot(randomSeries) 

printu'Mj 值 : % .4f' % randomSeries.mean() 

print u' 标 准 差 : € .4f' % randonSeries. std() 


运行 上 面 的 代码 ,可 以 得 到 如 下 结果 和 如 图 11-4 所 示 的 图 形 。 
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11-4 利用 SciPy 库 获取 的 标准 正 态 分 布 的 随机 数 


45 fü: 0.0171 
标准 差 : 0.9825 


结合 SciPy 和 NumPy 可 以 定义 基于 蒙特 卡 洛 方法 的 期 权 定价 算法 : 


# 期 权 计 算 的 蒙特 卡 洛 方法 
def call option pricer monte carlo(spot, strike, maturity, r, vol, numOfPath = 5000): 
randomSeries = scipy. random. randn(numOfPath) 
S t = spot * np.exp((r - 0.5 * vol * vol) * maturity + randomSeries * vol * 
sqrt(maturity)) 
sumValue = np.maximum(s t — strike, 0.0). sum() 
price = exp( -r * maturity) * sunValue / numOfPath 
return price 
print ' 期 权 价格 (蒙特 卡 洛 ): % .4f' % call option pricer monte carlo(spot, strike, maturity, r, vol) 


代码 运行 结果 如 下 : 
期 权 价格 (蒙特 卡 洛 ) : 0.1142 
下 面 看 一 看 从 1000 次 模拟 到 50 000 次 模拟 的 结果 ,每 个 模拟 次 数 运行 100 遍 。 代 码 如 下 : 


pathScenario = range(1000, 50000, 1000) 
numberOfTrials - 100 
confidenceIntervalUpper 
confidenceIntervalLower 
means = [] 
for scenario in pathScenario: 

res 7 np.zeros(numberOfTrials) 

for i in range(nunberOfTrials): 

res[i] = call option pricer monte carlo(spot, strike, maturity, r, vol, numOfPath = 

scenario) 


[] 
[] 
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means. append(res. nean() ) 
confidenceIntervalUpper.append(res.mean() + 1.96 * res.std()) 
confidenceIntervalLower.append(res.mean() — 1.96 * res.std()) 
pylab.figure(figsize - (12,8)) 
# 绘 图 
tabel = np.array([means,confidenceIntervalUpper, confidenceIntervalLower]).T 
pylab.plot(pathScenario, tabel) 
pylab.title(u' 期 权 计 算 蒙特 卡 洛 模拟 '，fontproperties = font, fontsize = 18) 
pylab. legend([u'3 ff ', u'95 $ 置信 区 间 上 界 ',u'95 s 置信 区 间 下 界 '], prop = font) 
pylab. ylabel(u' 价 格 ',，fontproperties = font, fontsize = 15) 
pylab. xlabel(u' 模 拟 次 数 '，fontproperties = font, fontsize = 15) 
pylab.grid(True) 


运行 上 述 代 码 ,可 以 得 到 如 图 11-5 所 示 的 图 形 。 
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从 图 11-5 中 可 以 看 到 , 随 着 模拟 次 数 的 上 升 ,模拟 结果 逐渐 收敛 ,模拟 结果 的 置信 区 间 
也 在 逐渐 收敛 。 


11.4 计算 隐 含 波动 率 


作为 Black-Scholes 期 权 定价 最 重要 的 参数 ,波动 率 o 指 的 是 标的 资产 本 身 的 波动 率 。 
但 是 我 们 更 关心 的 是 当时 的 报价 所 反映 的 市 场 对 波动 率 的 估计 ,这 个 估计 的 波动 率 称 为 隐 
含 波动 率 (Implied Volatility) 。 这 个 过 程 实际 上 是 在 Black-Scholes 公式 中 假设 另外 4 个 参 
数 是 确定 的 且 期 权 价格 已 知 , 反 解 o 

对 于 欧式 看 涨 期 权 而 言 , 其 价格 为 对 应 波动 率 的 单调 递增 函数 ,所 以 这 个 求解 过 程 是 稳 
定 可 行 的 。 一 般 来 说 可 以 用 类 似 于 试 错 法 的 方法 来 实现 。 在 SciPy 中 提供 了 很 多 高 效 的 算 
法 ,例如 Brent 算法 。 代 码 如 下 : 


from scipy.optimize import brentq 
+ 目标 函数 , 目标 价格 由 target 确定 
class cost_function: 
def init (self, target): 
self.targetValue - target 


def call (self, x): 
return call option pricer(spot, strike, maturity, r, x) - self.targetValue 
# 假设 使 用 vol 初 值 作 为 目标 
target = call option pricer(spot, strike, maturity, r, vol) 
cost sampel = cost function(target) 


* 使 用 Brent 算法 求解 
impliedVol = brentq(cost sampel, 0.01, 0.5) 


print u' 真 实 波动 率 : %.2f' % (vol*100,) + '&" 
print u' 隐 含 波 动 率 : % .2f' % (impliedVol*100,) + '%' 


运行 上 面 的 代码 ,可 以 得 到 如 下 结果 : 


真实 波动 率 : 25.00% 
隐 含 波动 率 : 25.00% 


练习 题 


对 本 章 中 的 例题 数据 ,使 用 Python 重新 操作 一 遍 。 
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本 章 将 介绍 量化 金融 投资 的 常用 工具 一 一 函数 插值 ,然后 将 函数 插值 应 用 于 一 个 实际 
的 金融 建 模 环境 中 , 即 构造 波动 率 曲面 。 

通过 本 章 的 学 习 , 可 以 掌握 以 下 知识 : 

(1) 如 何在 SciPy 中 使 用 函数 插值 模块 interpolate。 

(2) 波动 率 曲面 构造 的 原理 。 

(3) 将 interpolate 应 用 于 波动 率 曲面 构造 。 


12.1 如 何 使 用 SciPy 做 函数 插值 


函数 插值 , 即 在 离散 数据 的 基础 上 构造 连续 函数 ,以 估算 出 函数 在 其 他 点 处 的 近似 值 。 
在 SciPy 中 ,所 有 与 函数 插值 相关 的 功能 都 在 scipy. interpolate 模块 中 。 首 先导 入 模块 : 


from scipy import interpolate 
dir(interpolate)[:5] 


可 以 得 到 如 下 结果 : 


['AkimalDInterpolator', 'BPoly', 'BarycentricInterpolator', 'BivariateSpline', 
'CloughTocher2DInterpolator'] 


本 章 只 作 一 般 性 介绍 ,只 关注 interpolate. spline 的 使 用 , 即 样 条 插值 方法 。 
先 看 一 下 样 条 插值 的 版 本 : 


print interpolate. spline. __doc__ 
Interpolate a curve at new points using a spline fit 
Parameters 
xk, yk : array_like 
The x and y values that define the curve. 
xnew : array_like 
The x values where spline should estimate the y values. 
order : int 
Default is 3. 
kind : string 
One of {'smoothest'} 
conds : Don't know 
Don't know 
Returns 


spline : ndarray 
An array of y values; the spline evaluated at the positions 'xnew'. 

样 条 插值 方法 的 主要 参数 如 下 : 
(1) xk 为 离散 的 自 变量 值 , 是 一 个 序列 。 
(2) yk 为 对 应 xk 的 函数 值 ,是 与 xk 长 度 相同 的 序列 。 
(3) xnew 为 需要 进行 插值 的 自 变 量 值 序列 。 
(4) order 为 样 条 插值 使 用 的 函数 基 的 阶 数 ,为 1 时 使 用 线性 函数 。 
先 用 一 个 实际 的 示例 来 说 明 如 何在 SciPy 中 使 用 函数 插值 。 这 里 的 目标 函数 是 三 角 


函数 : 


f(x) = sinz 


假设 我 们 已 经 观测 到 f(z) 在 离散 点 z=1,3,5,7,9,11,13 的 值 。 代 码 如 下 : 


import numpy as np 

from matplotlib import pylab 

import seaborn as sns 

from CAL.PyCAL import * 

font.set size(20) 

x 7 np.linspace(1.0, 13.0, 7) 

y = np.sin(x) 

pylab.figure(figsize - (12,6)) 

pylab.scatter(x,y, s = 85, marker- 'x', color = 'r') 
pylab.title(u'$ f(x) $ 离散 点 分 布 '，fontproperties = font) 


运行 上 述 代码 ,可 以 得 到 如 图 12-1 所 示 的 图 形 。 
f (ORB 散 点 分 fti 


2 4 6 8 10 12 14 
12-1 f(z) 离 散 点 分 布 
首先 使 用 最 简单 的 线性 插值 算法 ,这 时 只 要 将 spline 的 参数 order 设置 为 1 即 可 : 
xnew = np.linspace(1.0,13.0,500) 
ynewLinear = interpolate. spline(x, y, xnew, order = 1) 
ynewLinear[:5] 


运行 上 述 代码 ,可 以 得 到 如 下 结果 : 


array([ 0.84147098, 0. 83304993， 0.82462888, 0.81620782, 0.80778677]) 
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阶 数 更 高 时 即 为 样 条 插值 ,也 是 spline 函数 默认 的 方法 ,这 里 将 order 设置 为 3 BT 


ynewCubicSpline = interpolate. spline(x y, xnew, order = 3) 
YnewCubicSpline[ :5] 


运行 上 述 代 码 , 可 以 得 到 如 下 结果 : 
array([ 0.84147098, 0.86598588, 0.88928385, 0.91138025, 0.93229042]) 
最 后 获得 真实 的 sinz 的 值 : 


ynewReal = np.sin(xnew) 
ynewReal[:5] 


运行 上 述 代码 ,可 以 得 到 如 下 结果 : 
array([ 0.84147098, 0.85421967, 0.86647437, 0.87822801, 0.88947378]) 


把 所 有 的 函数 曲线 画 到 一 起 ,看 一 下 插值 的 效果 。 对 于 这 个 例子 中 的 目标 函数 而 言 , 由 


于 目标 函数 曲线 是 光滑 的 , 则 越 高 阶 的 样 条 插值 的 方法 插值 效果 越 好 。 


pylab. figure(figsize = (16,8)) 

pylab. plot (xnew, ynewReal) 

pylab. plot (xnew, ynewLinear) 

pylab. plot (xnew, ynewCubicSpline) 

pylab.scatter(x,y, s = 160, marker- 'x', color = 'k') 

pylab. legend([u' 真 实 曲 线 ',u' 线 性 插值 ',，u' 样 条 插值 ',u' $ f(x) $ 离散 点 ']，prop = font) 
pylab.title(u'$ f(x) $ 不 同 插值 方法 拟 合 效果 : 线性 插值 vs 样 条 插值 ',，fontproperties = font) 


运行 上 述 代码 ,可 以 得 到 如 图 12-2 所 示 的 图 形 。 


f(x) 不同 插值 方法 拟 合 效果 : 线性 插值 vs 样 条 插值 
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图 12-2 不 同 的 插值 方法 拟 合 效果 的 比较 
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12.2 国 数 插值 应 用 一 一 期 权 波 动 率 曲 面 构造 


在 期 权 市 场 上 ,期 权 价 格 一 般 以 隐 含 波动 率 的 形式 报 出 ,一般 来 讲 ,在 市 场 交易 时 间 , 交 
易 员 可 以 看 到 波动 率 和 矩阵 (volatilitie matrix) 。 其 代码 如 下 : 


import pandas as pd 

pd.options.display.float format = '(:,».2f)'.format 

dates = [Date(2017,3,25), Date(2017,4,25), Date(2017,6,25), Date(2017,9,25)] 

strikes - [2.2, 2.3, 2.4, 2.5, 2.6] 

blackVolMatrix 7 np.array([[ 0.32562851, 0.29746885, 0.29260648, 0.27679993], 
[ 0. 28841840, 0.29196629, 0.27385023, 0.26511898], 
[ 0.27659511, 0.27350773, 0.25887604, 0.25283775], 
[ 0.26969754, 0.25565971, 0.25803327, 0.25407669], 
[ 0.27773032, 0.24823248, 0.27340796, 0.24814975]]) 

table = pd.DataFrame(blackVolMatrix * 100, index = strikes, columns = dates, ) 

table. index. name = u' 行 权 价 ' 

table. columns, name = u' 到 期 时 间 ' 

print u'2017 年 3 月 3 日 10 时 波动 率 矩 阵 ' 

Table 


得 到 如 表 12-1 所 示 的 结果 。 
2017 年 3 月 3 日 10 时 的 波动 率 矩 阵 
到 期 时 间 
行 权 价 
2017-03-25 2017-04-25 2017-06-25 2017-09-25 
2.20 32.56 29.75 29. 26 27.68 
2.30 28.84 29. 20 27.39 26.51 
2.40 27.66 27.35 25.89 25. 28 
2.50 26.97 25.57 25. 80 25.41 
2.60 27.77 24.82 27.34 24.81 


交易 员 可 以 看 到 市 场 上 离散 值 的 信息 ,但 是 如 果 可 以 获得 一 些 隐 含 的 信息 ,例如 在 
2017 年 6 月 25 日 到 2017 年 9 月 25 日 之 间 波 动 率 的 形状 , 则 会 对 交易 员 更 有 帮助 。 

我 们 并 不 是 直接 在 波动 率 矩 阵 上 进行 插值 ,而 是 在 方差 矩阵 上 进行 插值 。 方 差 和 波动 
率 的 关系 如 下 : 

Var(K,T) = (K, TT 

所 以 下 面 将 波动 率 矩 阵 转换 为 方差 矩阵 (variance matrix) 。 代 码 如 下 : 

evaluationDate = Date(2017,3,3) 

ttm = np.array([(d — evaluationDate) / 365.0 for d in dates]) 


varianceMatrix = (blackVolMatrix * *2) * ttm 
varianceMatrix 


得 到 如 下 结果 : 


array([[0.00639109, 0.0128489, 0.02674114, 0. 04324205], [0. 0050139, 0.01237794, 0. 02342277, 
0.03966943], [0. 00461125, 0. 01086231, 0. 02093128, 0. 03607931], [0. 00438413, 0. 0094909, 
0.02079521, 0. 03643376], [0. 00464918, 0. 00894747, 0.02334717, 0. 03475378] ]) 


这 里 的 varianceMatrix 就 是 转换 而 得 的 方差 矩阵 。 

下 面 在 行 权 价 方向 以 及 时 间 方 向 同时 进行 线性 插值 。 在 行 权 价 方向 : 
Var(K.D = KIT VK, D ECKE Ves D 
在 时 间 方 向 : 


VarCK) = 


t = VarCK 4) ++ Var(K 65) 
1 


t 
ta 一 ts —ti 
这 个 过 程 在 SciPy 中 可 以 直接 通过 interpolate 模块 下 interp2d 来 实现 : 
interp = interpolate. interp2d(ttm, strikes, varianceMatrix, kind = 'linear') 


参数 如 下 : 

(1) ttm 为 时 间 方 向 离散 点 。 

(2) strikes 为 行 权 价 方向 离散 点 。 

(3) varianceMatrix 为 方差 矩阵 , 列 对 应 时 间 维 度 , 行 对 应 行 权 价 维度 。 
(4) kind 二 "linear' 指 示 插 值 以 线性 方式 进行 。 

返回 的 interp 对 象 可 以 用 于 获取 任意 点 上 插值 得 到 的 方差 值 : 


interp(ttm[0], strikes[0]) 
array([0.00639109]) 


最 后 获取 整个 平面 上 所 有 点 的 方差 值 ,再 转换 为 波动 率 曲面 。 代 码 如 下 : 


sMeshes np.linspace(strikes[0], strikes[ - 1], 400) 
tMeshes np.linspace(ttm[0], ttm[ ~ 1], 200) 
interpolatedVarianceSurface = np.zeros((len(sMeshes), len(tMeshes))) 
for i, s in enumerate(sMeshes) : 

for j, t in enunerate(tMeshes) : 

interpolatedVarianceSurface[i][j] = interp(t,s) 

interpolatedVolatilitySurface - np.sqrt((interpolatedVarianceSurface / tMeshes)) 
print u' 行 权 价 方向 网 格 数 : ', np. size(interpolatedVolatilitySurface, 0) 
print u' 到 期 时 间 方 向 网 格 数 : '，np. size( interpolatedVolatilitySurface, 1) 


得 到 如 下 结果 : 


行 权 价 方向 网 格 数 : 400 
到 期 时 间 方 向 网 格 数 : 200 


选取 某 一 个 到 期 时 间 上 的 波动 率 点 ,看 一 下 插值 的 效果 。 这 里 选择 到 期 时 间 最 近 的 点 : 
2017 Æ 3 H 25 日。 代码 如 下 : 


pylab. figure(figsize = (16,8)) 

pylab.plot(sMeshes, interpolatedVolatilitySurface[:, 0]) 

pylab.scatter(x = strikes, y = blackVolMatrix[:,0], s = 160,marker = 'x', color = 'r') 
pylab. legend([u' 波 动 率 (线性 插值 )',u' 波 动 率 (离散 )'], prop = font) 

pylab. title(u' 到 期 时 间 为 2017 年 3 H 25 日 期 权 波动 率 '，fontproperties = font) 


运行 上 面 的 代码 ,可 以 得 到 如 图 12-3 所 示 的 图 形 。 
最 后 ,把 整个 曲面 的 图 形 画 出 来 ,代码 如 下 : 


from mpl toolkits.mplot3d import Axes3D 
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到 期 时 间 为 2017 年 3 月 25 日 期 权 波动 率 
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032 x ”波动 率 (离散 ) 


0.26 " " " " " 
21 22 23 24 25 2.6 27 


图 12-3 到 期 时 间 为 2017 年 3 月 25 日 的 期 权 波 动 率 


from matplotlib import cm 

maturityMesher, strikeMesher - np.meshgrid(tMeshes, sMeshes) 
pylab.figure(figsize - (16,9)) 

ax = pylab.gca(projection = '3d') 

surface = ax. plot surface(strikeMesher, maturityMesher, interpolatedVolatilitySurface * 
100, cmap = cm.jet) 

pylab. colorbar( surface, shrink = 0.75) 

pylab.title(u'2017 4p 3 H 3 H 10 时 波动 率 曲面 ',， fontproperties = font) 
pylab. xlabel("strike") 

pylab. ylabel("maturity") 

ax.set zlabel(r"volatility( % )") 


运行 上 述 代码 ,可 以 得 到 如 图 12-4 所 示 的 图 形 。 


2017 年 3 月 3 日 10 时 波动 率 曲面 


图 12-4 期 权 波 动 率 曲面 


练习 题 


对 本 章 中 的 例题 数据 ,使 用 Python 重新 操作 一 遍 。 
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通过 前 面 的 学 习 , 读 者 已 熟悉 了 Python 的 基本 语法 ,也 了 解 了 Python 中 常用 数值 库 
的 算法 。 这 里 引入 二 又 树 算法 来 计算 期 权 价格 。 本 章 将 介绍 如 下 内 容 : 

(1) 如 何 利 用 Python 的 控制 语句 与 基本 内 置 计算 方法 构造 二 又 树 模型 。 

(2) 如 何 使 用 类 封装 的 方式 抽象 二 叉 树 算法 并 进行 扩展 。 

(3) 利用 继承 的 方法 为 已 有 二 又 树 算法 增加 美式 期 权 定价 算法 。 

本 章 的 初始 化 代码 如 下 : 

import numpy as np 

import math 

import seaborn as sns 

from matplotlib import pylab 


from CAL.PyCAL import * 
font.set size(15) 


13.1 二 义 树 算法 的 Python 描述 


这 里 简单 地 描述 二 又 树 的 算法 ,不 会 深入 讨论 其 原理 , 感 兴趣 的 读者 可 以 从 相关 文献 中 
获取 细节 。 

仍然 考虑 基础 的 Black-Scholes 模型 ; 

dS = (Gr — d)Sdt + oS dW, 

式 中 各 个 参数 的 含义 见 第 11 章 的 介绍 ,d 代表 股息 率 。 

该 算法 之 所 以 被 称 为 二 又 树 算 法 ,是 因为 这 个 算法 的 基础 结构 是 一 个 逐 层 递 增 的 二 又 
树 结构 。 一 个 基本 的 二 又 树 结构 由 以 下 3 个 参数 决定 : 

up: 标的 资产 价格 上 升 的 比例 , 必 大 于 1 。 

down; 标的 资产 价格 下 降 的 比例 , 必 小 于 1。 

upProbability: 标的 资产 价格 上 升 的 概率 。 

这 里 用 一 个 具体 的 例子 来 说 明 如 何 使 用 Python 实现 二 又 树 算法 。 以 下 为 具体 参数 : 

ttm 为 到 期 时 间 , 单 位 为 年 。 

tSteps 为 时 间 方 向 步 数 。 

r 为 无 风险 利率 。 

d 为 标的 股息 率 。 

sigma 为 波动 率 。 


strike 为 期 权 行 权 价 。 

spot 为 标的 现价 。 

本 例 只 考虑 看 涨 期 权 。 

# 设 置 基 本 参数 

ttm = 3.0 

tSteps = 25 

r = 0.03 

d = 0.02 

sigma - 0.2 

strike - 100.0 

spot - 100.0 

这 里 用 作 例 子 的 二 又 树 称 为 Jarrow-Rudd 树 , 其 中 : 
up 一 e7479 5 dt +o Vd 
down = e qr — o dr 
upProb ability — 0.5 


Python 代码 如 下 : 
dt = ttm / tSteps 
up = math.exp((r - d - 0.5*sigma* sigma) * dt + sigma * math.sqrt(dt)) 


down = math.exp((r - d - 0.5* sigma* sigma) * dt — sigma * math.sqrt(dt)) 
discount = math. exp( - r * dt) 
在 本 例 中 ,这 个 树 的 深度 为 16 层 ( 时 间 节 点 数 十 1) ,第 i 层 节点 与 第 i 十 1 层 节点 有 以 下 
的 关系 式 : 
lattice[ i + 1][j +1] = lattice[ 7 ]Lj ] * up 
lattice[ + 1][0] = lattice[ 7 ][0] * down 
因此 ,构造 二 叉 树 的 Python 代码 如 下 : 


# 构 造 二 又 树 
lattice = np.zeros((tSteps+ 1, tSteps + 1)) 
lattice[0][0] = spot 
for i in range(tSteps): 
for j in range(i* 1): 
lattice[i*1][j*1] = up * lattice[i][j] 
lattice[i-*1][0] = down * lattice[i][0] 


绘图 代码 如 下 : 


pylab.figure(figsize = (12,8)) 
pylab.plot(lattice[tSteps]) 
pylab.title(u' 二 叉 树 到 期 时 刻 标的 价格 分 布 '，fontproperties = font, fontsize = 20) 


最 后 得 到 如 图 13-1 所 示 的 图 形 。 


# 在 节点 上 计算 payoff 
def call payoff(spot): 

global strike 

return max(spot — strike, 0.0) 
pylab.figure(figsize = (12,8)) 
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pylab.plot(map(call payoff, lattice[tSteps])) 
pylab.title(u' 二 叉 树 到 期 时 刻 标的 Pay off 4) ', fontproperties = font, fontsize = 18) 


最 后 得 到 如 图 13-2 所 示 的 图 形 。 
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图 13-2 二叉树 到 期 时 刻 标的 Pay off 分 布 


在 从 二 叉 树 的 叶 节 点 向 根 回溯 的 时 候 ,第 i 层 节点 与 第 i 十 1 层 节点 满足 以 下 关系 : 
lattice[ 7 ]Lj] — discount X (upProbability X lattice[i + 1][j +1] + 
(1 — upProbability) X lattice; + 1 ]Lj D 
因此 代码 如 下 : 
# 向 根 节点 回溯 整 棵 树 


for i in range(tSteps,0, - 1): 
for j in range(i,0, - 1): 
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ifi == tSteps: 
lattice[i- 1][j- 1] = 0.5 * discount * (call payoff(lattice[i][j]) + call. 
payoff(lattice[i][j - 1])) 
else: 
lattice[i- 1][j- 1] = 0.5 * discount * (lattice[i][j] + lattice[il][j- 1]) 
print u' 二 叉 树 价格 : $.4£' & lattice[0][0] 
print u' 解 析 法 价格 : % .4f' % BSMPrice(1, strike, spot, r, d, sigma, ttm, rawOutput- True)[0] 
二 又 树 价格 : 14.2663 
解析 法 价格 : 14.1978 


13.2 用 面向 对 象 的 方法 实现 二 又 树 算 法 


前 面 展 示 了 二 叉 树 算法 的 基本 结构 ,但 是 前 面 的 具体 实现 有 两 个 缺点 : 

(1) 没有 明确 的 接口 ,不 便于 用 户 使 用 该 算法 。 

(2) 没有 完整 的 封装 ,十 分 不 利于 算法 的 扩展 。 

下 面 给 出 一 个 基于 Python 类 的 二 又 树 算法 实现 。 实 际 上 ,通过 上 面 的 实验 性 探索 ,可 
以 发 现 整个 程序 可 以 拆 成 3 个 互相 独立 的 功能 模块 : 

(1) 二 叉 树 框架 , 即 树 的 框架 结构 ,包括 节点 数 以 及 基本 参数 的 保存 。 

(2) 二 叉 树 类 型 描述 , 即 具体 数 算法 的 参数 ,例如 上 例 中 的 Jarrow-Rudd 树 。 

(3) 偿付 函数 , 即 到 期 的 偿付 形式 (payoff function). 


13.2.1 二 叉 树 框架 


BinomialTree 类 负责 二 又 树 框 架 的 构造 ,也 是 基本 的 二 又 树 算 法 的 调用 入 口 。 它 有 
3 个 成 员 : 
CO 构造 函数 (__init__)。 负 责 接 收 用 户 定义 的 具体 参数 ,例如 spot 等 ; 真正 的 二 叉 树 


构造 方法 由 私有 方法 _build_lattice 以 及 传人 参数 treeTraits 共同 完成 。 

(2) 树 构造 细节 (_build_lattice) 。 负 责 具 体 的 树 构造 过 程 ,这 里 需要 依赖 从 treeTraits 
获取 的 参数 ,例如 up down. 

(3) 树 回溯 (roll_back)。 从 树 的 叶 节 点 向 根 节点 回溯 的 过 程 。 最 终 根 节点 的 值 即 为 期 
权 的 价值 。 它 要 求 的 参数 是 pay_off 函数 。 


# 二 叉 树 框架 (可 以 通过 传人 不 同 的 treeTraits 类 型 设计 不 同 的 二 叉 树 结构 ) 
class BinomialTree: 
def init (self, spot, riskFree, dividend, tSteps, maturity, sigma, treeTraits): 
self.dt = maturity / tSteps 
self. spot = spot 
self.r = riskFree 
self.d = dividend 
self. tSteps = tSteps 
self.discount = math. exp( - self. r * self.dt) 
self.v = sigma 
self.up = treeTraits. up(self) 
self.down = treeTraits.down(self) 
self.upProbability = treeTraits.upProbability(self) 
self.downProbability = 1.0 - self.upProbability 
self. build lattice() 
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def build lattice(self): 
# 完 成 构造 二 又 树 的 工作 
self. lattice = np.zeros((self.tSteps+ 1，self.tSteps+1)) 
self. lattice[0][0] = self. spot 
for i in range(self.tSteps) : 
for j in range(i+1): 
self. lattice[i+1][j+1] = self.up * self.lattice[i][jl 
self. lattice[i+1][0] = self.down * self.lattice[i][0] 
def roll back(self, payOff): 
# 节 点 计算 ,并 向 根 节点 回溯 
for i in range(self.tSteps,0, - 1): 
for j in range(i,0, - 1): 
ifi == self.tSteps: 
self.lattice[i- 1][j - 1] = self. discount * (self.upProbability * 
payOff(self.lattice[i][j]) + self.downProbability * payOff(self.lattice[i][j- 1])) 
else: 
self.lattice[i- 1][j - 1] = self. discount * (self.upProbability * 
self.lattice[i][j] + self.downProbability * self.lattice[i][j- 1]) 


13.2.2 二 叉 树 类 型 描述 


正 像 13. 1 节 描 述 的 那样 ,任意 的 二 叉 树 只 要 描述 3 个 方面 的 特征 就 可 以 ,所 以 本 节 设 
计 的 Tree Traits 类 只 需 通过 它 的 静态 成 员 返 回 这 3 个 特征 : 

(1) up, 返 回 上 升 的 比例 。 

(2) down, 返 回 下 降 的 比例 。 

(3) upProbability, 返 回 上 升 的 概率 。 

下 面 的 类 定义 了 Jarrow-Rudd 树 的 类 型 描述 : 


class JarrowRuddTraits: 
(8 staticmethod 
def up(tree): 
return math.exp((tree.r 一 tree.d — 0.5 * tree.v * tree. v) * tree.dt + tree. v * math 
. Sqrt(tree.dt)) 
(8 staticmethod 
def down(tree): 
return math.exp((tree.r — tree.d — 0.5 * tree. v * tree. v) * tree.dt — tree. v * math 
. sqrt(tree. dt)) 
@staticmethod 
def upProbability(tree): 
return 0.5 


这 里 再 给 出 Cox-Ross-Rubinstein 树 的 描述 : 


class CRRTraits: 
(à staticmethod 
def up(tree): 
return math.exp(tree.v * math. sqrt(tree. dt) ) 
@staticmethod 
def down(tree): 
return math. exp( — tree.v * math.sqrt(tree.dt)) 
@staticmethod 
def upProbability(tree): 


MENU ILL ELEM 
return 0.5 + 0.5 * (tree.r - tree.d - 0.5 * tree.v* tree.v) * tree.dt / tree.v / 
math. sqrt(tree.dt) 


13.2.3 偿付 函数 


偿付 函数 很 简单 ,是 一 元 函数 ,输入 为 标的 价格 ,输出 为 偿付 收益 ,对 于 看 涨 期 权 来 说 就 是 
pay = max(S — K.0) 
代码 如 下 : 


def pay_off(spot) : 
global strike 
return max(spot — strike, 0.0) 


13.2.4 组 装 


把 上 面 3 个 模块 组 装 起 来 ,现在 整个 调用 过 程 变 得 十 分 清晰 ,最 后 的 结果 和 13. 1 节 二 
叉 树 算法 的 结果 是 完全 一 致 的 。 


testTree = BinomialTree(spot, r, d, tSteps, ttm, sigma, JarrowRuddTraits) 
testTree.roll back(pay off) 

print u'— X jd fri: % .4f' % testTree. lattice[0][0] 

二 叉 树 价格 : 14.2663 


下 面 用 本 节 的 算法 框架 来 测试 二 叉 树 的 收敛 性 。 这 里 我 们 用 来 进行 比较 的 算法 即 前 面 
给 出 的 Jarrow-Rudd 树 以 及 Cox-Ross-Rubinstein 树 : 


stepSizes = range(25, 500,25) 
jrRes = [] 
crrRes - [] 
for tSteps in stepSizes: 
fJarrow - Rudd 树 的 结果 
testTree - BinomialTree(spot, r, d, tSteps, ttm, sigma, JarrowRuddTraits) 
testTree.roll back(pay off) 
jrRes. append(testTree. lattice[0][0]) 
#Cox - Ross - Rubinstein 树 的 结果 
testTree - BinomialTree(spot, r, d, tSteps, ttm, sigma, CRRTraits) 
testTree.roll back(pay off) 
crrRes. append(testTree. lattice[0][0]) 


可 以 将 两 种 二 叉 树 算法 随 着 步 数 的 增加 逐渐 向 真实 值 收敛 的 过 程 用 图 形 展示 出 来 : 


anyRes = [BSMPrice(1, strike, spot, r, d, sigma, ttm, rawOutput- True)[0]] * len(stepSizes) 
pylab.figure(figsize - (16,8)) 


pylab.plot(stepSizes, jrRes, '- .', marker = 'o', markersize = 10) 
pylab.plot(stepSizes, crrRes, '- .', marker = 'd', markersize = 10) 
pylab.plot(stepSizes, anyRes, '—- ') 


pylab.legend(['Jarrow — Rudd', 'Cox - Ross - Rubinstein', u' 解 析 解 '], prop = font) 
pylab.xlabel(u'— X BiZESX', fontproperties = font) 
pylab.title(u' 二 叉 树 算法 收敛 性 测试 '，fontproperties = font, fontsize = 20) 
运行 上 面 的 代码 ,得 到 如 图 13-3 所 示 的 图 形 。 

也 可 以 用 图 形 展示 两 种 算法 的 误差 随 着 步 长 下 降 的 过 程 。 
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3i3s 二 叉 树 算法 收敛 性 测试 
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图 13-3 ”二叉树 算法 收敛 性 测试 


jrErr = np.array(jrRes) - np.array(anyRes) 
crrErr - np.array(crrRes) - np.array(anyRes) 
jrErr = np.logl0(np.abs(jrErr)) 

crrErr = np.loglO(np.abs(crrErr)) 


绘图 代码 如 下 : 

pylab. figure(figsize = (16,8)) 

pylab.plot(stepSizes, jrErr, '- .', marker = 'o', markersize = 10) 
pylab.plot(stepSizes, crrErr, '- .', marker = 'd', markersize = 10) 


pylab.xlabel(u'— X WiJbXE', fontproperties = font) 
pylab. ylabel(u'j&25(log)', fontproperties = font) 
pylab.title(u' 二 叉 树 算法 误差 分 布 测试 '，fontproperties = font, fontsize = 20) 
运行 上 面 的 代码 ,得 到 如 图 13-4 所 示 的 图 形 。 

二 叉 树 算法 误差 分 布 测试 


误差 (log) 
LJ 


100 200 300 400 500 
二 又 树 步 


图 13-4 二 又 树 算法 误差 分 布 测试 
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13.3 ”美式 期 权 定价 的 二 又 树 算法 


既然 已 经 有 解析 算法 了 ,为 什么 还 要 用 二 叉 树 算法 来 求解 呢 ? 当然 ,如 果 只 是 普通 欧式 
期 权 定 价 问题 ,二 又 树 算法 就 是 多 此 一 举 的 做 法 。 但 是 由 于 二 叉 树 天 然 的 回溯 特性 ,使 得 它 
特别 适合 处 理 有 提前 行 权 结 构 的 期 权 产 品 。 本 节 以 美式 期 权 为 例 说 明 二 叉 树 算法 的 应 用 。 

美式 期 权 的 行 权 结构 在 二 又 树 下 处 理 起 来 特别 简单 ,只 需 在 每 个 节点 上 做 以 下 比较 : 


lattice[i][j] ^ max(ExerciseValue,EuropeanValue) 
这 里 的 ExerciseValue 就 是 立即 行 权 的 价值 ,EuropeanValue 为 对 应 节点 的 欧式 期 权 价值 。 
为 了 实现 上 面 的 比较 ,需要 扩展 原先 的 算法 ,这 可 以 通过 Python 的 类 继承 在 原先 的 类 
上 添加 新 功能 来 实现 : 


class ExtendBinomialTree(BinomialTree): 
def roll back american(self, payOff): 
# 节 点 计算 并 回溯 
for i in range(self.tSteps,0, -1): 
for j in range(i,0, - 1): 
if i == self.tSteps: 
europeanValue - self.discount * (self.upProbability * payOff(self 
.lattice[i][j]) + self.downProbability * payOff(self.lattice[i][j- 1])) 
else: 
europeanValue - self.discount * (self.upProbability * self 
.lattice[i][j] + self.downProbability * self.lattice[i][j- 1]) 
# 处 理 美 式 期 权 的 行 权 结 构 
exerciseValue = payOff(self.lattice[i- 1][j- 1]) 
self.lattice[i- 1][j- 1] = max(europeanValue, exerciseValue) 


下 面 使 用 同样 的 参数 测试 美式 期 权 算法 的 结果 : 


stepSizes = range(25, 500,25) 
jrRes = [] 
crrRes = [] 
for tSteps in stepSizes: 
fJarrow - Rudd 树 的 结果 
testTree = ExtendBinomialTree(spot, r, d, tSteps, ttm, sigma, JarrowRuddTraits) 
testTree.roll back american(pay off) 
jrRes. append(testTree. lattice[0][0]) 
#Cox - Ross - Rubinstein 树 的 结果 
testTree - ExtendBinomialTree(spot, r, d, tSteps, ttm, sigma, CRRTraits) 
testTree.roll back american(pay off) 
crrRes.append(testTree. lattice[0][0]) 


画 出 美式 期 权 价 格 的 收敛 图 ,美式 期 权 价 格 始 终 高 于 欧式 期 权 价格 ,符合 预期 。 


anyRes = [BSMPrice(1, strike, spot, r, d, sigma, ttm, rawOutput- True)[0]] * len(stepSizes) 
pylab.figure(figsize - (16,8)) 


pylab.plot(stepSizes, jrRes, '- .', marker = 'o', markersize = 10) 
pylab.plot(stepSizes, crrRes, '- .', marker = 'd', markersize = 10) 
pylab.plot(stepSizes, anyRes, '-- ') 


pylab. legend( [ u'Jarrow - Rudd(JE3X)', u'Cox- Ross - Rubinstein(JE X) "，u' 解 析 解 (欧式 )']，prop = 
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font) 
pylab.xlabel(u'— X BEZESX', fontproperties = font) 
pylab.title(u' 二 叉 树 算法 美式 期 权 '，fontproperties = font, fontsize = 20) 


得 到 如 图 13-5 所 示 的 图 形 。 


i435 二 叉 树 算法 美式 期 权 
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14.25 s 

: 4 
14.20 ET T ENPE tet 
^" 于 * 
14.15 E 
à 

160 100 200 300 400 500 


-又 树 步 数 
图 13-5 美式 期 权 二 叉 树 算法 收敛 性 测试 


练习 题 


对 本 章 中 的 例题 数据 ,使 用 Python 重新 操作 一 遍 。 


“ 偏 微分 方程 显 式 差 分 法 
。 PIAT, 的 Python 应 用 


@ o-o-o 


本 章 以 热传导 方程 为 例 , 介 绍 有 关 偏 微分 方程 的 以 下 问题 ， 
(1) 偏 微分 方程 的 初 边 值 问题 。 

(2) 利用 差分 格式 将 偏 微分 方程 离散 化 。 

(3) 显 式 差分 格式 。 

(4) 显 式 差分 格式 的 条 件 稳定 性 。 


14.1 热传导 方程 


本 节 使 用 热传导 方程 作为 偏 微 分 方程 的 例子 : 

uU.—Ku, —0, Oxrxl (14-1) 
(14-2) 
(14-3) 
(14-4) 


u(r,0) = 4Ax(1— zx), Ox 
u(C0,7) 一 0， 
u(l,t) 一 0， 


其 中 ,x 称 为 热传导 系数 。 
式 (14-2) 称 为 方程 的 初 值 条 件 (initial condition) , 式 (14-3) 和 式 (14-4) 称 为 方程 的 边 值 
条 件 (boundaries condition) 。 这 里 使 用 Dirichlet 条 件 。 


可 以 看 一 下 初 值 条 件 的 形状 : 


from matplotlib import pylab 

import seaborn as sns 

import numpy as np 

from CAL.PyCAL import * 

font.set size(20) 

def initialCondition(x): 
return 4.0 * (1.0 - x) * x 

xArray = np.linspace(0,1.0,50) 

yArray = map(initialCondition, xArray) 

pylab. figure(figsize = (12,6)) 

pylab. plot(xArray, yArray) 

pylab.xlabel('$ x$ ', fontsize = 15) 

pylab. ylabel('$ f(x) $ ', fontsize = 15) 

pylab.title(u' 一 维 热传导 方程 初 值 条 件 '，fontproperties = font) 


运行 以 上 代码 ,得 到 如 图 14-1 所 示 的 图 形 。 
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一 维 热传导 方程 初 值 条 件 


0.0 0.2 0.4 0.6 0.8 1.0 
14-1 一 维 热传导 方程 初 值 条 件 


14.2 显 式 差分 格式 


这 里 的 基本 思想 是 用 差分 格式 替换 对 应 的 微分 形式 ,并 且 期 盼 两 种 格式 的 “误差 ?在 网 
格 足够 密 的 情况 下 会 趋 于 0。 分别 在 时 间 方 向 以 及 空间 方向 对 式 (14-1) 做 差分 : 


WA = "ichs Ar,-—2uGr. 00) d ur — Arr) 
Ar (Ax)? 


整理 得 
Ar 
(Ax)? 


(uji — Zuja H uji) 


| 
Ujk Ujk TK 


到 这 里 得 到 一 个 迭代 方程 组 : 
Uj = pgUja4 -(0—29U;, HoU ma 1<j<N-1,0<k<M-1 
_ kåt 
iu am (Ax)? 
下 面 使 用 Python 代码 实现 微分 到 差分 的 格式 替换 过 程 。 
首先 定义 基本 变量 ， 
N 为 空间 方向 的 网 格 数 。 
M 为 时 间 方 向 的 网 格 数 。 
T 为 最 大 时 间 期 限 。 
X 为 最 大 空间 范围 。 
U 为 用 来 存储 差分 网 格 点 上 的 值 的 矩阵 。 
25 #x 方 向 网 格 数 
2500 #t 方 向 网 格 数 
1.0 
1.0 
xArray = np.linspace(0,X,N-* 1) 
yArray = map(initialCondition, xArray) 
starValues = yArray 
U = np.zeros((N* 1,M * 1)) 
U[:,0] = starValues 


N 
M 
T 
X 


dx-X/N 
dt = T/M 
kappa = 1.0 


rho = kappa * dt / dx / dx 
这 里 做 正 向 迭代 : 迭代 时 ==0,1,…,M 一 1, 代 表 从 0 时 刻 运行 至 工 。 


for k in range(0, M): 
for j in range(1, N): 
U[j][k* 1] = rho * U[j-1][k] + (1. - 2*rho) * U[3][k] + rho * U[j+1][k] 
U[0][k* 1] = 0. 
U[N][k* 1] = 0. 


可 以 画 出 不 同时 间 点 U Cs clo ZAR: 


pylab.figure(figsize = (12,6)) 

pylab. plot(xArray, U[:,0]) 

pylab.plot(xArray, U[:, int(0.10/dt)]) 

pylab.plot(xArray, U[:, int(0.20/dt)]) 

pylab.plot(xArray, U[:, int(0.50/dt)]) 

pylab.xlabel('$ x$ ', fontsize = 15) 

pylab. ylabel(r'$ U(\dot, \tau) $ ', fontsize = 15) 

pylab.title(u' 一 维 热传导 方程 '，fontproperties = font) 

pylab.legend([r'$ \tau = 0. $ ', r'$\tau = 0.10$ ', r'$\tau = 0.20$ ', r'$Ntau = 0.50$'], 
fontsize - 15) 


运行 上 面 的 代码 ,得 到 如 图 14-2 所 示 的 图 形 。 
- 维 热传导 方程 


1.0 


0.0 02 04 0.6 0.8 1.0 
14-2 一 维 热传导 方程 


也 可 以 通过 三 维 立体 图 看 一 下 整体 的 热传导 过 程 : 


tArray = np.linspace(0, 0.2, int(0.2 / dt) + 1) 

xGrids, tGrids = np.meshgrid(xArray, tArray) 

from mpl toolkits.mplot3d import Axes3D 

from matplotlib import cm 

fig= pylab.figure(figsize = (16,10)) 

ax = fig.add subplot(1, 1, 1, projection = '3d') 

surface - ax.plot surface(xGrids, tGrids, U[:,:int(0.2 / dt) * 1].T, cmap- cm.coolwarm) 


ax.set xlabel(" $x$", fontdict = ("size":18]) 

ax.set ylabel(r" $ Vtau $ ", fontdict- ("size":18]) 

ax.set zlabel(r" $U$", fontdict- ("size":18]) 

ax. set_title(u" 热 传导 方程 $u Wtau = u {xx} $", fontproperties = font) 
fig.colorbar(surface, shrink = 0.75) 


运行 上 面 的 代码 ,得 到 如 图 14-3 所 示 的 图 形 。 
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14-3 ”热传导 方程 


14.3 模块 组 装 


就 像 在 13. 2 节 的 二 又 树 建 模 中 介绍 的 一 样 ,本 节 以 面向 对 象 的 方式 重新 组 装 分 散 的 模 
块 ,以 方便 复 用 。 首 先是 方程 的 描述 : 


class HeatEquation: 
def init (self, kappa, X, T, 
initialConstion = lambda x:4.0 * x* (1.0 - x), boundaryConditionL = lambda x: 0, 
boundaryCondtionR - lambda x:0): 
self.kappa - kappa 
self.ic - initialConstion 
self.bcl - boundaryConditionL 
self.bcr - boundaryCondtionR 
self.X = X 
self.T- T 


下 面 是 显 式 差分 格式 的 描述 : 


class ExplicitEulerScheme: 
def init (self, M, N, equation): 
self.eq - equation 


"ETE EEE EAE IAF ACER SUEDE Python & 
self.dt - self.eq.T/ M 
self.dx = self.eq.X/ N 
self.U = np.zeros((N* 1, M* 1)) 
self.xArray = np.linspace(0,self.eq.X,N-* 1) 
self.U[:,0] = map(self. eq. ic, self.xArray) 
self.rho = self.eq.kappa * self.dt / self.dx / self.dx 
Belf.M — M 
self.N = N 
def roll back(self): 
for k in range(0, self.M): 
for j in range(1, self.N): 
self.U[j][k * 1] = self.rho * self.U[j- 1][k] + (1. - 2*self.rho) * 
self.U[j][k] + self.rho * self.U[j* 1][k] 
self.U[O][k * 1] = self.eq.bcl(self.xArray[0]) 
self.U[N][k * 1] 7 self.eq.bcr(self.xArray[ - 1]) 
def nesh grids(self): 
tArray = np.linspace(0, self.eq.T, M* 1) 
tGrids, xGrids = np.meshgrid(tArray, self. xArray) 
return tGrids, xGrids 


有 了 以 上 的 部 分 ,现在 整个 过 程 可 以 简单 地 通过 初始 化 和 一 行 关 于 roll back 的 调用 
完成 ; 
ht = HeatEquation(1.,1.,1.) 


Scheme = ExplicitEulerScheme(2500,25, ht) 
Scheme. roll back() 


可 以 获取 与 之 前 相同 的 图 形 , 如 图 14-4 所 示 。 
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14-4 热传导 方程 
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tGrids, xGrids = scheme.mesh grids() 

fig- pylab.figure(figsize - (16,10)) 

ax = fig.add subplot(1, 1, 1, projection = '3d') 

cutoff - int(0.2 / scheme.dt) * 1 

surface = ax.plot surface(xGrids[:,:cutoff], tGrids[:,:cutoff], scheme. U[:,:cutoff], cmap = 
cm. coolwarm) 

ax.set xlabel(" $x$", fontdict = ("size":18]) 

ax.set ylabel(r" $ \tau $", fontdict = ("size":18]) 

ax.set zlabel(r" $U$ ", fontdict- ("size":18]) 

ax. set_title(u" 热 传导 方程 $u \\tau = u [xx] $", fontproperties = font) 
fig.colorbar(surface, shrink = 0.75) 


14.4. 显 式 格式 的 条 件 稳 定性 


显 式 格式 不 能 任意 取 时 间 和 空间 的 网 格 点 数 , 即 M 与 N 不 能 任意 取 值 ,因此 称 显 式 
格式 为 条 件 稳 定格 式 。 特 别 地 , 显 式 格式 需要 满足 所 谓 CFL (Courant-Friedrichs-Lewy) 
条 件 : 


A 
= 25 «0.5 
例如 ,M — 2500.N — 25, 则 
A 
p= “5 =0.521 >0.5 


但 如 果 M = 1200, N = 25, 则 
下 面 的 代码 完成 在 第 二 种 情形 下 的 网 格 点 计算 过 程 ， 


ht = HeatEquation(1.,1.,1.) 
Scheme - ExplicitEulerScheme(1200,25, ht) 
Scheme. roll back() 


绘制 图 形 查看 网 格 点 的 计算 结果 : 


tGrids, xGrids = scheme.mesh grids() 

fig= pylab.figure(figsize = (16,10)) 

ax 7 fig.add subplot(1, 1, 1, projection - '3d') 

cutoff - int(0.2 / scheme.dt) * 1 

surface = ax.plot surface(xGrids[:,:cutoff], tGrids[:,:cutoff], scheme.U[:,:cutoff], cmap = 
cm. coolwarm) 

ax.set xlabel(" $x$", fontdict = ("size":18]) 

ax.set ylabel(r" $ \tau$ ", fontdict = ("size":18]) 

ax.set zlabel(r" $U$", fontdict- ("size":18]) 

ax. set_title(u" 热 传导 方程 $u_\\tau = u (xx) $, $\\rho = 0.521$", fontproperties = 
font) 

fig. colorbar(surface, shrink= 0.75) 


可 以 通过 图 14-5 看 到 ,在 CFL 条 件 无 法 满足 的 情况 下 ,数值 误差 累计 的 结果 较 差 。 注 
意图 14-5 中 的 锯齿 ,这 个 问题 将 在 第 15 章 中 进行 讨论 ,引出 无 条 件 稳定 格式 一 一 隐 式 差分 
格式 。 
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图 14-5 热传导 方程 


练习 题 


对 本 章 中 的 例题 数据 ,使 用 Python 重新 操作 一 遍 。 


“ 偏 微分 方程 隐 式 差分 法 
$ 第 ,15 章 。 的 Python 应 用 


@ o-o-o 


本 章 将 引入 隐 式 差分 算法 来 解决 第 14 章 显 式 格式 的 稳定 性 问题 ,主要 内 容 包括 : 
(1) 隐 式 差分 格式 描述 。 
(2) 三 对 角 和 矩阵 求解 。 
(3) 使 用 Sci Py 加 速算 法 实现 三 对 角 和 矩阵 求解 。 
本 章 的 初始 化 代码 如 下 : 
from CAL.PyCAL import * 
from matplotlib import pylab 
import seaborn as sns 
import numpy as np 
np.set printoptions(precision = 4) 
font.set size(20) 
def initialCondition(x): 
return 4.0 * (1.0 - x) * x 


15.1 隐 式 差分 格式 


与 第 14 章 类 似 , 本 章 从 差分 格式 的 数学 表述 开始 。 隐 式 格式 与 显 式 格式 的 区 别 在 于 时 
间 方 向 选择 的 基准 点 不 同 , 显 式 格式 选择 ,而 隐 式 格式 选择 十 1。 

这 里 得 到 一 个 迭代 方程 组 : 

— PU; 十 (1 十 20Ui —pUjiaa =U; 1j N—1, 0<k<M-1 


_ kåt 
Rh o— DI 


500 并 x 方向 网 格 数 
500 # t Jr inp Fé c 


xÀrray = np.linspace(0,X,N* 1) 

yArray = map(initialCondition, xArray) 
starValues = yArray 

U = np.zeros((N* 1,M* 1)) 

U[:,0] = starValues 


dx -X/N 
dt = T/M 
kappa = 1.0 


rho = kappa * dt / dx / dx 


第 15 章 ” 仿 微分 方程 隐 式 差分 法 的 Python èA l 


15.1.1 矩阵 求解 


虽然 看 上 去 形式 只 是 变 了 一 点 ,但 是 求解 的 问题 有 很 大 的 变化 。 在 每 个 时 间 点 上 ,需要 
求解 如 下 的 线性 方程 组 : 


AUm = U, 
这 里 矩阵 A 为 
1 十 2p —p m 0 
—p It —p : 
: 5 "n —p 
0 ess —p 1 十 20 


幸运 的 是 ,这 是 一 个 三 对 角 和 矩阵 ,可 以 简单 地 利用 高 斯 消去 法 求解 。 这 里 不 详细 讨论 算 
法 的 步骤 ,细节 可 以 在 下 面 的 Python 类 TridiagonalSystem 中 了 解 到 。 


class TridiagonalSystem: 
def ^ init (self, udiag, cdiag, ldiag): 
# 三 对 角 和 矩阵 : 
# udiag -- 上 对 角 线 
#cdiag -- 对 角 线 
#1diag -- 下 对 角 线 


assert len(udiag) == len(cdiag) 
assert len(cdiag) == len(ldiag) 
self.udiag - udiag 
self.cdiag - cdiag 
self.ldiag - ldiag 


self.length = len(self.cdiag) 
def solve(self, rhs): 
# 求 解 以 下 方程 组 
#A\dotx = rhs 
assert len(rhs) == len(self.cdiag) 
udiag = self.udiag.copy() 
cdiag = self.cdiag.copy() 
ldiag = self.ldiag.copy() 
b 7 rhs.copy() 
# 消去 下 对 角 元 
for i in range(1, self.length): 
cdiag[i] -= udiag[i- 1] * ldiag[i] / cdiag[i- 1] 
b[i] -= b[i-1] * ldiag[i] / cdiag[i- 1] 
# 从 最 后 一 个 方程 开始 求解 
x = np.zeros(self.length) 
x[self.length- 1] = b[self. length - 1] / cdiag[self.length - 1] 
for i in range(self. length - 2, -1, - 1): 
x[i] = (b[i] - udiag[i] * x[i* 1]) / cdiag[i] 
return x 
def multiply(self, x): 
# 和 矩阵 乘法 
#rhs = A\dot x 
assert len(x) == len(self.cdiag) 
rhs = np.zeros(self.length) 
rhs[0] = x[0] * self.cdiag[0] + x[1] * self.udiag[0] 
for i in range(1, self. length - 1): 


rhs[i] = x[i-1]* self.ldiag[i] + x[i]* self.cdiag[i] + x[i+1] * self.udiag[i] 
rhs[self.length - 1] = x[self.length - 2] * self.ldiag[self.length - 1] + 
x[self.length - 1] * self.cdiag[self.length - 1] 


return rhs 
15.1.2. 隐 式 格式 求解 
代码 如 下 : 
for k in range(0, M): 
udiag = - np.ones(N- 1) * rho 
ldiag = - np.ones(N-1) * rho 


cdiag = np.ones(N- 1) * (1.0 + 2. * rho) 

mat = TridiagonalSystem(udiag, cdiag, ldiag) 
rhs = U[1:N,k] 

x 7 mat.solve(rhs) 

U[1:N, k* 1] = 

U[0][k* 1] = 0. 
U[N)[k* 1] = 0. 


先 调用 如 下 代码 : 


#coding= utf - 8 

from CAL. PyCAL import * 

from matplotlib import pylab 

import seaborn as sns 

import numpy as np 

font.set size(20) 

from mpl toolkits.mplot3d import Axes3D 

from matplotlib import cm 

class HeatEquation: 

def ^ init (self, kappa, X, T, initialConstion = lambda x:4.0* x* (1.0- x), 
boundaryConditionL - lambda x: 0, boundaryCondtionR - lambda x:0): 

self.kappa = kappa 
self.ic - initialConstion 
self.bcl = boundaryConditionL 


x 


self.bcr = boundaryCondtionR 
self.X- X 
self.T- T 


def plotSurface(xGrids, yGrids, zGrids, title, xlabel, ylabel, zlabel): 
fig = pylab.figure(figsize = (16,10)) 
ax = fig.add subplot(1, 1, 1, projection = '3d') 
surface = ax.plot surface(xGrids, yGrids, zGrids, cmap = cm.coolwarm) 
ax.set xlabel(xlabel, fontdict = ("size":18]) 
ax.set ylabel(ylabel, fontdict - ("siz 
ax.set zlabel(zlabel, fontdict - ("size": 
ax.set title(title, fontproperties - font) 
fig.colorbar(surface, shrink = 0.75) 

def plotLines(lines, x, title, xlabel, ylabel, legend): 
assert len(lines) -- len(legend) 
pylab.figure(figsize = (12,6)) 
for line in lines: 

pylab.plot(x, line) 

pylab.xlabel(xlabel, fontsize = 15) 
pylab. ylabel(ylabel, fontsize = 15) 
pylab.title(title, fontproperties - font) 


pylab.legend(legend, fontsize - 15) 
再 调用 如 下 代码 : 
plotLines([U[:,0], U[:, int(0.10/ dt)], U[:, int(0.20/ dt)], U[:, int(0.50/ dt)]], 
xArray, title = u' 一 维 热传导 方程 ', xlabel = '$x$', ylabel = r'S$U(Mdot, \tau) $ ', 


legend = [r'$\tau = 0.$ ', r'$\tau = 0.10$ ', r'$\tau = 0.20$ ', r'$\tau = 0.50$ ']) 


可 以 得 到 如 图 15-1 所 示 的 图 形 。 
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图 15-1 一 维 热传导 方程 

最 后 调用 如 下 代码 : 
tArray = np.linspace(0, 0.2, int(0.2 / dt) + 1) 
tGrids, xGrids = np.meshgrid(tArray, xArray) 
plotSurface(xGrids, tGrids, U[:,:int(0.2 / dt) + 1], title = u" 热 传导 方程 Su \\tau = u_ 
{xx} $ , 隐 式 格式 ( $ \\rho = 50$)", xlabel = "$x$", ylabel = r" $\tau$", zlabel = r"$U$") 
可 以 得 到 如 图 15-2 所 示 的 图 形 。 


热传导 方程 w=wuw， 隐 式 格式 (p=50) 


1.0 0.00 
图 15-2 热传导 方程 


15.2 模块 组 装 
与 第 14 章 的 做 法 一 样 ,把 前 面 的 代码 整合 起 来 ,组 装 成 一 个 完整 的 类 ImplicitEulerScheme: 


class ImplicitEulerScheme: 
def ^ init (self, M, N, equation): 
self.eq = equation 
self.dt - self.eq.T/ M 
self.dx = self.eq.X/ N 
self.U = np.zeros((N* 1, M* 1)) 
self. xArray = np.linspace(0,self.eq.X,N * 1) 
self.U[:,0] = map(self.eq.ic, self.xArray) 
self.rho = self.eq.kappa * self.dt / self.dx / self. dx 
self.M- M 
self.N = N 
def roll back(self): 
for k in range(0, self.M): 
udiag = - np.ones(self.N- 1) * self.rho 
ldiag = - np.ones(self.N- 1) * self.rho 
cdiag = np.ones(self.N- 1) * (1.0 + 2. * self.rho) 


mat = TridiagonalSystem(udiag, cdiag, ldiag) 
rhs = self.U[1:self.N,k] 
x 7 mat.solve(rhs) 
self.U[1:self.N, k*1] = x 
self.U[0][k * 1] = self.eq.bcl(self.xArray[0]) 
self.U[self.N][k * 1] = self.eq.bcr(self.xArray[ - 1]) 
def mesh grids(self): 
tArray = np.linspace(0, self.eq.T, M* 1) 
tGrids, xGrids = np.meshgrid(tArray, self.xArray) 
return tGrids, xGrids 


然后 可 以 使 用 下 面 的 3 行 简单 调用 完成 功能 : 


ht = HeatEquation(1.,X, T) 

Scheme = ImplicitEulerScheme(M,N, ht) 

scheme. roll_back() 

scheme.U 

array([[0.0000e+ 00, 0.0000e+ 00, 0.0000e+ 00, ~ 
[7.9840e - 03, 7.2843e - 03, 6.9266e- 03, ~ 
[1.5936e - 02, 1.4567e- 02, 1.3852e- 02, ~ 


0.0000e + 00, 0.0000e + 00, 0.0000e + 00], 
3.8398e - 07, 3.7655e - 07, 3.6926e - 07], 
7.6795e - 07, 7.5308e - 07, 7.3851e- 07], 


[1.5936e - 02, 1.4567e - 02, 1.3852e- 02, ~ 
[7.9840e - 03, 7.2843e - 03, 6.9266e- 03, -- 
[0.0000e + 00, 0.0000e + 00, 0.0000e * 00, .~ 


15.3 使 用 SciPy 加 速 


软件 工程 领域 有 句 老 话 :“ 不 要 重复 发 明 轮 子 1" 实 际 上 ,在 前 面 的 代码 中 ,我 们 就 造 了 
自己 的 “轮子 ”一 一 TridiagonalSystem。 三 对 角 和 矩阵 是 最 常见 的 稀 朴 矩阵 ,其 线性 方程 组 求 
解 算法 实际 上 早已 为 业界 熟知 ,也 已 有 很 多 库 内 置 了 工业 级 别 的 实现 。 这 里 以 SciPy 作为 
例子 ,来 展示 使 用 外 源 库 实现 的 好 处 : 

COD 更 加 稳健 的 算法 。 知 名 库 算 法 由 于 使 用 者 广泛 ,有 更 大 的 概率 发 现 一 些 极端 情形 


7.6795e- 07, 7.5308e - 07, 7.3851e- 07], 
3.8398e - 07, 3.7655e - 07, 3.6926e - 07], 
0.0000e * 00, 0.0000e * 00, 0.0000e * 00]]) 
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下 的 bug。 库 的 编写 者 可 以 根据 用 户 反 馈 及 时 调整 算法 。 

(2) 更 高 的 性 能 。 由 于 库 的 使 用 更 为 广泛 , 库 的 编写 者 有 更 大 的 动力 通过 各 种 技术 提 
高 算法 的 性 能 ,例如 使 用 更 高 效 的 语言 实现 (例如 C),SciPy 中 的 库 就 是 如 此 。 

(3) 持续 的 维护 。 库 的 受众 范围 广 ,社区 的 力量 会 推动 库 的 编写 者 持续 地 维护 库 。 

下 面 的 代码 展示 了 如 何 使 用 SciPy 中 的 solve banded 算法 求解 三 对 角 和 矩阵 : 

import scipy as sp 


from scipy.linalg import solve banded 
A = np.zeros((3, 5)) 


A[O, :] = np.ones(5) * 1. 井上 对 角 线 
A[1, :] = np.ones(5) * 3. 井 对 角 线 
A[2, :] = np.ones(5) * (-1.)  # 下 对 角 线 


b» [3.,2:,3.,4.,5.] 

x 7 solve banded ((1,1), A,b) 

print x = A^-1b = ',x 

x = A^-1b = [0.1833 0.45 0.8333 0.95 1.9833] 


使 用 上 面 的 算法 替代 前 面 的 TridiagonalSystem PA% : 
import scipy as sp 


from scipy.linalg import solve banded 
for k in range(0, M): 


udiag = - np.ones(N- 1) * rho 

ldiag = - np.ones(N- 1) * rho 

cdiag = np.ones(N- 1) * (1.0 + 2. * rho) 
mat 7 np.zeros((3,N- 1)) 

mat[0,:] = udiag 

mat[1,:] = cdiag 

mat[2,:] = ldiag 


rhs = U[1:N,k] 
x 7 solve banded((1,1), mat,rhs) 
U[1:N, kt 1] = x 
U[0][k * 1] 
U[N][k*1] = 
plotLines([U[:,0], U[:, int(0.10/ dt)], U[:, int(0.20/ dt)], U[:, int(0.50/ dt)]], 
xhrray, title = u' 一 维 热传导 方程 ,使 用 SciPy', xlabel = '$x$', 
ylabel = r'$U(\dot, \tau) $ ', legend = [r'$\tau = 0. $ ', r'$ Mau = 0.10$ ', 
r'$Ntau = 0.20$ ', r'$Ntau = 0.50$ ']) 


0. 
0. 


运行 上 面 的 代码 ,得 到 如 图 15-3 所 示 的 图 形 。 
一 维 热传导 方程 ， 使 用 SciPy 


MT 02 04 0.6 0.8 1.0 
图 15-3 使 用 SciPy 中 的 solve banded 算法 得 到 的 一 维 热传导 方程 


同样 定义 一 个 新 类 ImplicitEulerSchemeWithScipy 使 用 SciPy 的 算法 : 


class ImplicitEulerSchemeWithScipy: 
def init (self, M, N, equation): 
self.eq - equation 
self.dt - self.eq.T/ M 
self.dx = self.eq.X/ N 
self.U = np.zeros((N* 1, M* 1)) 
self.xArray = np.linspace(0,self.eq.X,N * 1) 
self.U[:,0] = map(self.eq.ic, self.xArray) 
self.rho = self.eq.kappa * self.dt / self.dx / self. dx 
self.M = M 
self.N = N 
def roll back(self): 
for k in range(0, self.M): 
udiag = - np.ones(self.N- 1) * self.rho 
ldiag = - np.ones(self.N- 1) * self.rho 
cdiag = np.ones(self.N- 1) * (1.0 + 2. * self.rho) 


mat = np.zeros((3,self.N- 1)) 
mat[0,:] = udiag 
mat[1, :] cdiag 
mat[2, :] ldiag 
rhs = self.U[1:self.N,k] 
x = solve banded((1,1), mat, rhs) 
self.U[1:self.N, k*1] = x 
self.U[0][k * 1] = self.eq.bcl(self.xArray[0]) 
self.U[self.N][k * 1] = self.eq.bcr(self.xArray[ - 1]) 
def nesh grids(self): 
tArray = np.linspace(0, self.eq.T, M* 1) 
tGrids, xGrids = np.meshgrid(tArray, self.xArray) 
return tGrids, xGrids 


下 面 的 代码 比较 了 两 种 做 法 的 性 能 。 可 以 看 到 ,仅仅 简单 地 以 SciPy 中 的 solve - 
banded 算法 替代 三 对 角 和 矩阵 算法 TridiagonalSystem, 就 获得 了 4 倍 多 的 性 能 提升 。 


" 


" 


import time 
startTime = time.time() 
loop round = 10 
# 不 使 用 SciPy 
for k in range(loop round): 
ht = HeatEquation(1l.,X, T) 
Scheme = ImplicitEulerScheme(M,N, ht) 
Scheme.roll back() 
endTime - time.time() 
print '(0:«40)(1:.4£)'.format( ' 执 行 时 间 (s) —— 不 使 用 scipy.linalg: ', endTime - startTime) 
# 使 用 SciPy 
startTime = time.time() 
for k in range(loop round): 
ht = HeatEquation(1l.,X, T) 
Scheme = ImplicitEulerSchemeWithScipy(M,N, ht) 


第 15 — 偏 微分 方程 隐 式 差分 法 的 Python 应 用 


scheme. roll back() 

endTime = time.time() 

print '{0:< 40}{1:.4f}'.format( ' 执 行 时 间 (s) -- 使 用 scipy.linalg: ', endTime — startTime) 

执行 时 间 (s) -- 不 使 用 scipy.linalg: 6.6161 

执行 时 间 (s) — 使 用 scipy.linalg: 1.5357 

第 14 章 和 本 章 介 绍 了 偏 微 分 方程 差分 格式 的 基本 知识 ,在 此 基础 上 ,就 可 以 处 理 金融 
工程 中 实际 遇 到 的 方程 。 在 第 16 章 中 ,将 把 这 些 知识 运用 到 金融 工程 史上 最 重要 的 方 
程 一 一 Black-Scholes-Merton 偏 微 分 方程 中 。 


练习 题 


对 本 章 中 的 例题 数据 ,使 用 Python 重新 操作 一 遍 。 


Black-Scholes-Merton 
i 偏 微分 方程 隐 式 差分 法 
e e  ” e 的 Python 应 用 


w 
uu 


本 章 把 前 两 章 介 绍 的 有 限 差分 知识 运用 到 金融 定价 领域 最 重要 的 Black-Scholes- Merton 
偏 微分 方程 中 。 

本 童 的 初始 化 代码 如 下 : 

import numpy as np 

import math 

import seaborn as sns 

from matplotlib import pylab 

from CAL.PyCAL import * 

font.set size(15) 


16.1 Black-Scholes-Merton 偏 微分 方差 初 边 值 问 题 的 提出 


Black-Scholes-Merton 模型 可 以 设置 为 如 下 的 偏 微分 方差 初 值 问题 : 


3CCGS.D dC Ls Ct 
à tS os toa —3g 


C(S,T) = max(S — K.0) 
做 变量 替换 ,r= 王 T 一 上, 并 且 设置 上 下 边界 条 件 : 


DCCzyr) ICT) | 0 50? 2  CCGe 70) 
ar Jx Ix? 


CCr,0) = max(e* — K,0) 
C(xmx stT) = em —Ke* 
CCzunyr) 一 0 


16.2 偏 微分 方程 隐 式 差分 法 
为 说 明 这 种 方法 ,本 节 考虑 一 个 不 支付 红利 的 股票 期 权 , 期 权 价格 所 满足 的 偏 微分 方 
程 为 


-rC(S,0 —0, Oxt«T 


-rC(x,, Oxcrs«T 


= (r— 0.59) 


9CCG.D , 49CG.D , 1 ?CCG.D o y g 
a trs s tg gg oS -rCGuD (6-1) 
假设 现在 是 0 时 刻 ,把 0 时 刻 至 期 权 的 到 期 日 工分 成 N 个 等 间隔 的 时 间 段 ,每 段 步 长 
是 At 一 TV/N, 这 样 总 共有 N 十 1 个 点 : 


0,Ar,2At,…，, 工 
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假设 So.. 为 股票 价格 所 能 达到 的 最 大 值 , 定 义 价格 步 长 为 AS= SM. rh M 为 价格 
步 数 。 这 样 就 有 M 十 1 个 股票 价格 点 : 
0, AS,2AS, y Smax 
上 面 的 价格 点 与 时 间 点 构成 了 一 个 共有 (CMT 十 1)XCNT 二 1) c, 
个 坐标 点 的 方 格 。 任 意 点 (i7) 对 应 的 时 间 是 iAt, 股票 价格 


是 jAS。 " 
用 C。 表 示 点 (is7) 的 期 权 价格 ,这 样 就 可 以 用 离散 算 子 逼近 
芝 、 基 .2 二 各 项 ,从 而 把 上 述 偏 微分 方程 转化 为 离散 方程。 cu 
偏 微分 方程 的 隐 式 有 限 差分 法 如 图 16-1 所 示 。 161 脆 式 有 限 差分 法 
通过 对 式 (16-1) 进 行 差分 处 理 ,得 出 隐 式 有 限 差分 法 的 表达 式 ; 
ajC,-1 T 5C. +C = Ciny (16-2) 
sb. 
dE us l fi 
aj — 375t— 9j At 
b; = 1+rAt +ø NC 
cj 一 一 TM S tojin 


以 上 即 为 差分 方程 组 , 式 (16-2) 的 解 很 多 。 要 求 得 某 些 特定 的 解 ,需要 给 出 边界 条 件 , 即 左 
右边 界 条 件 ,这 里 使 用 Dirichlet 边界 条 件 。 


16.3 Python 应 用 实现 
首先 导入 SciPy E: 


import scipy as sp 
from scipy. linalg import solve_banded 


描述 Black-Shcoles-Merton 模型 方程 结构 的 类 BSMModel 定义 如 下 : 


class BSMModel: 
def ^ init (self, s0, r, sigma): 
self.s0 = s0 
self.x0 = math. log(s0) 
self.r = r 
self. sigma = sigma 
def log_expectation(self, T): 
return self.x0 + (self.r - 0.5 * self.sigma * self. sigma) * T 
def expectation(self, T): 
return math. exp(self.log expectation(T)) 
def x max(self, T): 
return self.log expectation(T) * 4.0 * self.sigma * math.sqrt(T) 
def x min(self, T): 
return self.log expectation(T) — 4.0 * self.sigma * math. sqrt(T) 


描述 本 章 涉及 的 产品 的 类 CallOption 定义 如 下 : 
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class CallOption: 
def init (self, strike): 
self.k - strike 
def ic(self, spot): 
return max(spot — self.k, 0.0) 
def bcl(self, spot, tau, model): 
return 0.0 
def bcr(self, spot, tau, model): 
return spot 一 math.exp( - model. r * tau) * self.k 


完整 的 隐 式 差分 格式 BSMScheme 定义 如 下 : 


class BSMScheme: 
def ^ init (self, model, payoff, T, M, N): 


self.model - model 


self.T- T 
self.M = M 
self.N = N 


self.dt = self.T/ self.M 
self. payoff = payoff 
self.x_min = model. x_min(self. T) 
self.x max = model.x max(self.T) 
self.dx - (self.x max - self.x min) / self.N 
self.C = np.zeros((self.N 1, self,M+1)) # 全 部 网 格 
self.xArray = np.linspace(self.x min, self.x max, self.N+ 1) 
self.C[:,0] = map(self.payoff.ic, np.exp(self.xArray)) 
sigma square = self.model.sigma * self. model. sigma 
r = self.model.r 
self.l j = - (0.5 * sigma square * self.dt/self.dx/self.dx - 0.5 * (r - 0.5 * 
signa square) * self.dt/self.dx) 
self.c j = 1.0 + sigma square * self.dt/self.dx/self.dx + zx self.dt 
self.u j = -(0.5* sigma square * self.dt/self.dx/self.dx + 0.5 * (r - 0.5 * 
sigma square) * self.dt/self.dx) 
def roll back(self): 
for k in range(0, self.M): 
udiag = np.ones(self.N- 1) * self.u j 
ldiag = np.ones(self.N- 1) * self.l j 
cdiag 7 np.ones(self.N- 1) * self.c j 
mat = np.zeros((3,self.N- 1)) 
mat[0,:] = udiag 
mat[1, : cdiag 
mat[2,:] = ldiag 
rhs 7 np.copy(self.C[1:self.N,k]) 
# 应 用 左 端 边界 条 件 
vl = self.payoff. bcl(math. exp(self.x min), (k+1)* self.dt, self.model) 
rhs[0] -= self.l j * vl 
## 应 用 右 端 边界 条 件 
v2 = self.payoff.bcr(math. exp(self.x max), (k+1)* self.dt, self.model) 
rhs[-1] -= self.u j * v2 
x 7 solve banded((1,1), mat, rhs) 
self.C[1:self.N, k+1] = x 
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self.C[O][k * 1] = vi 
self.C[self.N][k * 1] = v2 
def mesh grids(self): 
tArray = np.linspace(0, self.T, self.M-* 1) 
tGrids, xGrids = np.meshgrid(tArray, self.xArray) 
return tGrids, xGrids 


最 后 完成 功能 调用 和 图 形 绘制 : 


model = BSMModel(100.0, 0.05, 0.2) 

payoff = CallOption(105.0) 

Scheme - BSMScheme(model, payoff, 5.0, 100, 300) 

Scheme. roll back() 

from matplotlib import pylab 

pylab.figure(figsize- (12,8)) 

pylab. plot (np. exp( scheme. xArray)[50:170], scheme.C[50:170, -1]) 
pylab.xlabel('$ S$ ') 

pylab. ylabel('$ C$ ') 


运行 上 面 的 代码 ,得 到 如 图 16-2 所 示 的 图 形 。 
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图 16-2 期 权 价 格 


16.4 收敛 性 测试 


首先 使 用 BSM 模型 的 解析 解 获得 精确 解 : 


analyticPrice = BSMPrice(1, 105., 100., 0.05, 0.0, 0.2, 5.) 
analyticPrice 


结果 如 表 16-1 所 示 。 


表 16-1 精确 解 
price delta gamma vega rho theta 
$ 26. 761 844 0. 749 694 0. 007 11 71.103 19 241. 037 549 — 3. 832 439 


固定 时 间 方 向 网 格 数 为 3000, 分 别 计算 不 同 S 网 格 数 情形 下 的 结果 : 


xSteps = range(50,300,10) 
finiteResult - [] 
for xStep in xSteps: 
model - BSMModel(100.0, 0.05, 0.2) 
payoff = CallOption(105.0) 
Scheme - BSMScheme(model, payoff, 5.0, 3000, xStep) 
scheme. roll back() 
interp = CubicNaturalSpline(np. exp(scheme. xArray), scheme.C[:,—1]) 
price = interp(100.0) 
finiteResult. append(price) 


绘制 收敛 图 的 代码 如 下 : 


anyRes = [analyticPrice['price'][1]] * len(xSteps) 

pylab.figure(figsize - (16,8)) 

pylab.plot(xSteps, finiteResult, '- .', marker = 'o', markersize = 10) 

pylab.plot(xSteps, anyRes, '-- ') 

pylab. legend( [u' 隐 式 差分 格式 "，u' 解 析 解 (欧式 ) '], prop = font) 
pylab.xlabel(u' 价 格 方向 网 格 步 数 '，fontproperties = font) 

pylab.title(u'Black - Scholes - Merton 有 限 差分 法 ',，fontproperties = font, fontsize = 20) 


利用 上 述 代 码 可 以 画 出 如 图 16-3 所 示 的 收敛 图 。 


0.040 +2.674el Black-Scholes-Merton 有 限 差分 法 
i e 隐 式 差分 格式 
"m --- 解析 解 (欧式 ) 
0030 
. 
0.025 ED 


0.010 
0.0055 100 150 200 250 300 
价格 方向 网 格 步 数 
图 16-3 ”收敛 图 


练习 题 


对 本 章 中 的 例题 数据 ,使 用 Python 重新 操作 一 遍 。 
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17.1 量化 金融 投资 基础 


量化 金融 投资 涉及 的 基础 知识 包括 数学 、 计 算 机 和 投资 学 。 

在 数学 方面 至 少 包括 微 积 分 线性 代数 \ 优 化 理论 .概率 统计 基础 线性 回归 等 知识 点 。 

在 计算 机 方面 主要 有 两 点 : 一 是 会 编程 ,二 是 会 作 数据 分 析 。 

在 投资 学 方面 只 要 学 过 大 学 的 “投资 学 "课程 就 可 以 了 ,也 可 以 系统 地 阅读 Bodie 等 著 
的 《投资 学 ) 或 William Sharpe 等 著 的 《投资 学 )。 最 好 能 够 通过 CFA (特许 注册 金融 分 析 
师 ) 资 格 认 证 考试 ,那样 知识 面 更 广 。 


17.2 量化 金融 投资 及 其 策略 


1. 量化 金融 投资 

量化 就 是 把 定义 指标 化 和 数据 化 。 例 如 ,“ 身 材 好 ”没有 统一 的 标准 ,但 是 如 果 指 标 化 为 
“身高 170cm 以 上 ,体重 50kg 以 内 ,胸围 超过 90cm, 腰 围 小 于 70cm”, 就 明确 了 ,这 就 是 
量化 。 

所 谓 量化 金融 投资 ,就 是 把 投资 想法 通过 数据 和 计算 模型 来 验证 和 落实 。 例 如 ,对 于 选 
定 的 几 支 波动 中 的 股票 可 以 设 定 在 下 跌 5% 的 时 候 买 入 ,在 上 涨 10% 的 时 候 抛 出 ,观察 这 一 
方法 在 过 去 两 年 中 的 收益 ,以 此 来 调整 策略 。 

量化 金融 投资 最 大 的 好 处 在 于 ,可 以 在 决策 过 程 中 避免 主观 脐 断 和 情绪 影响 ,而 且 能 够 
发 现 复 杂 的 数据 规律 ,快速 抓 住 交易 机 会 。 

2. 在 优 矿 平 台 形成 量化 策略 的 步骤 

首先 要 设 定 一 些 初始 数据 ,如 初始 资金 . 回 测 的 时 间 区 间 等 。 

然后 选择 股票 ,可 以 定义 股票 池 ,也 可 以 定义 选 股 范围 ,通过 买卖 条 件 来 筛选 。 买 卖 条 
件 又 称 handle data, 即 在 什么 情况 下 买 人 卖 出 ,是 策略 中 最 为 关键 的 部 分 。 

在 上 述 步骤 的 基础 上 ,可 以 加 入 一 些 更 为 复杂 的 规避 风险 机 制 ,或 者 增加 交易 费 等 细 
节 , 使 得 历史 回 测 的 结果 更 接近 真实 交易 的 情况 .这 样 就 可 以 形成 一 个 完整 的 策略 。 


17.3 设置 初始 数据 
首先 设置 一 些 初 始 数据 。 


1. 回 测 的 时 间 区 间 

既然 要 用 历史 数据 回 测 ,当然 要 定 一 个 回 测 的 时 间 区 间 。 这 个 区 间 并 不 是 越 长 越 好 。 
有 的 策略 适合 熊市 ,有 的 策略 适合 牛市 。 如 果 你 的 策略 非常 适合 当前 的 市 场 ,但 是 因为 回 测 
时 间 区 间 太 长 ,很 久之 前 一 段 时 间 的 不 佳 表 现 可 能 会 引起 你 的 怀疑 乃至 放弃 这 个 策略 ,就 得 
不 偿 失 了 。 所 以 务必 选择 适合 你 的 策略 的 回 测 时 间 区 间 。 

例如 ,假设 回 测 过 去 两 年 的 情况 ,代码 如 下 : 


start = '2013 - 01 - 01' 


# 这 是 开始 的 日 期 ,加 引号 是 Python 的 语法 规定 ,表示 这 是 一 个 字符 串 
end- 2015-01 - 01' 


# 这 是 截止 的 日 期 


2. 策略 表现 的 参照 基准 

确定 策略 表现 的 参照 基准 。 例 如 ,你 的 股票 是 从 沪 深 300 指数 里 选 出 来 的 ,那么 对 应 的 
基准 应 该 是 沪 深 300 指数 ,如 果 做 小 盘 股 或 者 创业 板 , 也 应 该 选取 相应 的 基准 。 这 里 假设 把 
沪 深 300 指数 作为 基准 ,代码 如 下 : 


benchmark = 'HS300' 
# HS300 表示 沪 深 300 指数 ,常见 的 还 有 SHCI( 上 证 综合 指数 ) .SH50( 上 证 50 指数 ) ,SH180( 上 证 180 
# 指 数 ) 和 22500( 中 证 500 指数 ) 


也 可 以 以 其 他 指数 为 基准 ,例如 以 创业 板 为 基准 
benchmark = '399006. ZICN' 
其 他 指数 的 列表 可 以 通过 DataAPI. IdxGet() 这 个 API 获得 : 


DataAPI. IdxGet() 
# 直接 复制 到 优 矿 平台 "开始 研究 "里 某 个 notebook 的 代码 单元 中 , f£ Ctrl + Enter 键 运行 后 即 可 获 
# 得 指数 列表 


甚至 可 以 以 某 个 单个 股票 的 走势 作为 基准 ,例如 : 
benchmark = '000001.XSHE' # 策 略 基准 为 平安 银行 股票 


3. 初始 资金 
设置 初始 资金 : 


capital base = 100000 ## 初 始 资 金 有 10 万 


4. 策略 类 型 和 调 仓 周期 
设置 策略 类 型 和 调 仓 周期 : 


freq = 'd' 

# 策 略 类 型 。'd' 表 示 日 间 策 略 , 使 用 日 线 回 测 ; 'm' 表 示 日 内 策略 ,使 用 分 钟 线 回 测 

refresh rate = 1 

# 调 仓 周期 ,表示 执行 策略 运行 条 件 的 时 间 间 隔 。 若 freg = 'd', 时 间 间 隔 的 单位 为 交易 日 ; 
HE freg = 'm', 则 调 仓 周期 的 单位 为 分 
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17.4 选取 股票 池 


股票 池 是 策略 中 所 用 到 的 股票 的 挑选 范围 。 有 的 策略 可 以 从 庞大 的 股票 池 里 选择 ,也 
有 的 策略 是 从 特定 的 几 只 股票 中 按照 一 定 条 件 来 筛选。 
以 下 是 股票 池 选 股 的 例子 : 


universe = set universe('SH50') 


# 股票 池 里 包含 了 最 近 一 个 交易 日 的 上 证 50 指数 的 成 分 股 
又 如 : 


universe = ['000001.XSHE', '600000. XSHG'] 

# 股票 池 里 包含 平安 银行 和 浦发 银行 的 股票 。 自 定义 股票 池 里 的 股票 时 ,需要 包含 股票 编码 与 交易 
# 所 编码 两 个 信息 ,前 面 6 位 数字 是 股票 编码 ,后 面 4 个 字母 是 交易 所 编码 。XSHE 表示 深交 所 , XSHG 表 
# 示 上 交 所 


还 可 以 使 用 优 矿 平台 提供 的 策略 框架 下 的 StockScreener 来 按 因 子 条 件 筛选 股票 : 


universe = StockScreener(Factor.PE.nlarge(10)) 

# 这 里 筛选 的 因子 (Factor) 是 股票 的 P 值 ,筛选 的 方法 是 选择 PE 值 最 大 的 10 只 股票 

除 此 以 外 ,还 有 其 他 各 种 不 同 的 因子 和 筛选 方法 。 股 票 筛选 器 所 使 用 的 筛选 因子 都 可 
以 通过 “Factor. "的 方法 获得 ,在 优 矿 平台 中 通过 代码 补 全 可 以 很 容易 地 输入 所 需 的 因子 。 

读者 可 以 活 学 活用 ,将 定义 股票 池 的 几 种 不 同 的 方法 结合 起 来 使 用 。 例 如 : 


universe = StockScreener(Factor.PE.nlarge(10)) + ['000001.XSHE', '600000. XSHG'] 
# 设 置 股票 池 为 PE 值 最 大 的 10 只 股票 ,并 加 上 平安 银行 和 浦发 银行 的 股票 


17.5 初始 化 回 测 账户 


在 编写 买 人 卖 出 的 条 件 之 前 ,还 需要 定义 回 测 账户 的 信息 , 即 买 人 卖 出 的 设 定 是 完全 基 
于 一 个 空白 账户 还 是 原先 就 有 持仓 的 账户 。 

如 果 是 从 零 开 始 的 空白 账户 ,那么 像 下面 这 样 初始 化 就 可 以 : 

def initialize(account): # 初 始 化 一 个 全 新 的 虚拟 账户 状态 

pass 

注意 : 千 万 不 要 小 看 这 个 account, 在 这 里 用 户 可 以 自己 定义 各 种 函数 ,之 后 很 多 的 高 
级 策略 里 都 会 用 到 。 例 如 一 个 策略 设 定 为 某 些 股票 在 连续 出 现 3 次 下 跌 之 后 买 入 ,那么 就 
需要 在 这 个 account. 里 定义 一 个 计数 器 ,每 天 运行 策略 的 时 候 都 会 检测 股票 是 否 下 跌 ,一 旦 
出 现 , 计 数 器 就 会 加 1, 累积 到 3 次 之 后 就 会 发 出 买 入 的 指令 。 初 级 用 户 只 要 在 策略 里 复制 
这 段 代码 即 可 。 


17.6 设置 买卖 条 件 
最 简单 的 买卖 命令 有 以 下 几 种 : 
# 每 只 股票 买 1 手 (100 it) 
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def handle data(account): 
for s in account. universe: 
order(s, 100) 
# 每 只 股票 买 至 持仓 1 手 (100 股 ) 
def handle data(account): 
for s in account. universe: 
order to(s,100) 
# 每 只 股票 买 人 价值 为 虚拟 账户 当前 总 价值 的 10 
def handle data(account) : 
for s in account. universe: 
order pct(s,0.1) 
# 每 只 股票 买 人 卖 出 至 价值 为 虚拟 账户 当前 总 价值 的 10 
def handle data(account) : 
for s in account. universe: 
order pct to(s,0.1) 


在 此 基础 上 ,可 以 做 一 些 条 件 判 断 。 例 如 , 设 定 一 个 最 简单 的 买 人 卖 出 条 件 , 当 股票 价 


格 低 于 4 的 时 候 买 人 , 当 股票 价格 涨幅 达到 1. 25 倍 的 时 候 卖 出 。 


def handle data(account): 
for stock in account. universe: 
* 股票 来 自 股票 池 , 并 且 优 矿 平台 自动 剔除 了 当天 停牌 退 市 的 股票 
p = account. referencePrice[ stock] # 股 票 前 一 天 的 收盘 价 
cost = account.valid seccost.get(stock) # 股 票 的 平均 持仓 成 本 
if 0 < p< 4 and not cost: 
# 判 断 股票 价格 低 于 4, 并 且 当 前 没有 买 人 该 股票 
order pct to(stock, 0.1) 
# 将 满足 条 件 的 股票 买 信 ,总 价值 占 虚 拟 账户 的 10 % 
elif cost and p>= cost * 1.25: # 卖 出 条 件 ,价格 p 涨 到 买 入 价 的 1.25 售 
order to(stock, 0) # 将 满足 条 件 的 股票 卖 到 剩余 0 股 , 即 全 部 卖 出 


17.7 组 合成 完整 的 量化 策略 


把 上 面 的 几 点 组 合 起 来 ,就 可 以 生成 一 个 最 简单 的 量化 策略 了 。 
# 从 沪 深 300 指数 中 任意 挑选 一 只 股票 , 涨 到 1.25 倍 后 卖 出 


start = '2014- 01- 01' # 回 测 的 起 止 时 间 是 2014 年 1 月 1 日 至 2015 年 6 月 1 日 
end= '2015 - 06 - 01' 
benchmark = 'HS300' # 参 照 标准 为 沪 深 300 指数 的 走势 
universe = set universe( 'HS300') 井 股票 池 为 沪 深 300 指数 的 成 分 股 
capital base = 100000 井 初始 资金 为 10 万 元 
def initialize(account) : 井 初始 化 一 个 全 新 的 账户 
pass 


def handle data(account): 
for stock in account. universe: 
p = account.reference price[stock] 
cost 7 account.security cost.get(stock) 
if 0 < p< 4 and not cost: 
order pct to(stock, 0.1) 
elif cost and p>= cost * 1.25: 
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order to(stock, 0) 


执行 上 述 代码 , 即 可 得 到 如 图 17-1 所 示 的 图 形 。 
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前 面 介 绍 了 量化 金融 投资 的 基本 知识 ,本 章 主要 用 具体 的 实例 来 介绍 如 何在 优 矿 平台 
上 建立 Alpha 对 冲模 型 。 


18.1 Alpha 对 冲模 型 


假设 市 场 完全 有 效 ,那么 根据 资本 资产 定价 模型 有 
R, =R+AR — RO 
式 中 ,R, 表示 股票 收益 ,Re 表示 无 风险 收益 率 ,R。 表示 市 场 收 益 ,B, 表示 股票 相 比 于 市 场 
的 波动 程度 ,用 以 衡量 股票 的 系统 性 风险 。 

遗憾 的 是 ,市场 并 非 完全 有 效 , 个 股 仍 存在 Alpha( 超 额 收 益 )。 根 据 Jensen 对 Alpha 
的 定义 : as =R, — [R +8 (Rs 一 Ri)], 除 掉 被 市 场 解释 的 部 分 ,超越 市 场 基 准 的 收益 即 为 个 
股 Alpha, 

在 实际 中 ,股票 的 收益 是 受 多 方面 因素 影响 的 ,比如 经 典 的 Fama-French 三 因素 就 告 
诉 我 们 ,用 市 值 大 小 、 估 值 水 平 以 及 市 场 因子 就 能 解释 股票 收益 ,而 且 低 市 值 . 低 估 值 能 够 获 
取 超 额 收益 。 因 此 ,可 以 通过 寻找 能 够 获取 Alpha 的 驱动 因子 来 构建 组 合 。 

假设 已 知 哪些 因子 能 够 获取 超额 收益 ,就 可 以 根据 这 些 因 子 构建 股票 组 合 (例如 持 有 低 
市 值 . 低 估 值 的 股票 ) 。 股 票 组 合 在 理论 上 是 能 够 获取 超额 收益 的 ,简单 来 讲 就 是 ,股票 组 合 
的 累计 收益 率 应 该 大 于 基准 (如 沪 深 300 指数 ) 累 计 收 益 率 ,而 且 两 者 的 差 应 该 呈 扩 大 的 
趋势 。 

由 于 股票 组 合 的 涨 跌 是 未 知 的 ,能 够 确保 的 是 股票 组 合 与 基准 的 收益 差 在 不 断 扩 大 , 那 
么 持 有 股票 组 合 ,做 空 基准 ,对 冲 获 取 稳 定 的 差额 收益 (Alpha 收益 ) ,这 就 是 所 谓 的 市 场 中 
性 策略 。 


18.2 优 矿 平台 的 “三 剑客 ” 


针对 上 述 研 究 流程 , 优 矿 平台 提供 了 从 金融 大 数据 模型 的 研究 开发 到 实 盘 交易 和 组 合 
管理 的 全 程 服务 。 

(D) DataAPI。 提 供 近 300 个 高 质量 的 因子 数据 (基本 面 因子 、 技 术 面 因子 和 大 数据 因 
To. SUR NEHME. 并 为 用 户 自己 研究 因子 提供 了 基础 。 

(2) RDP。 提 供 了 标准 的 因子 到 信号 的 处 理 函 数 (去 极 值 .中 性 化 .标准 化 ) ,还 提供 了 
功能 强大 的 组 合 构建 函数 。 
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(3) Quartz。 提 供 了 标准 的 .更 贴近 实际 的 回 测 框架 ,可 以 一 键 查看 对 冲模 型 历史 
表现 。 


18.3 优 人 矿 平 台 对 冲模 型 实例 


回 测 框架 和 基础 工作 如 下 : 

(1) 回 测 区 间 从 2011 年 8 月 1 日 至 2015 年 8 月 1 日 ,基准 为 沪 深 300 指数 ,策略 为 每 
月 第 一 个 交易 日 开盘 之 后 建仓 。 

(2) 因子 选取 净利 润 增长 率 (NetProfitGrowRate) .权益 收益 率 (ROE) 和 相对 强 弱 指 标 
(RSD, 

(3) 因子 到 信号 的 处 理 用 到 了 去 极 值 (winsorize)、 中 性 化 (neutralize) 和 标准 化 
(standardize) 处 理 。 

(4) 组 合 构 建 用 到 了 RDP 中 的 simple_long_only()。 

注意 : 关于 函数 的 详细 使 用 说 明 ,可 以 新 建 cell ,输入 函数 名 和 问号 (?), 即 可 打开 API 
使 用 文档 。 例 如 ,运行 下 面 的 代码 便 可 以 得 到 simple long only 的 使 用 说 明 : 

simple long only? 

from CAL.PyCAL import * 


import numpy as np 
from pandas import DataFrame 


start = '2011- 08- 01' # 回 测 起 始 时 间 

end = '2015 - 08- 01' # 回 测 结束 时 间 
benchmark = 'HS300' # 策 略 基准 

universe = set universe( 'HS300') # 股票 池 , 支 持 股票 和 基金 
capital_base = 10000000 井 初始 资金 

freq = 'd' 


# 策 略 类 型 .'d' 表 示 日 间 策略 ,使 用 日 线 回 测 ; 'm' 表 示 日 内 策略 ,使 用 分 钟 线 回 测 

#refresh rate = 1 

# 调 仓 周 期 ,表示 执行 handle_data 的 时 间 间 隔 。 若 freq = 'd', 则 调 仓 周期 的 单位 为 交易 日 ; 若 
#freq = 'm', 则 调 仓 周期 的 单位 为 分 

# 构 建 日 期 列表 

data = DataAPI. TradeCalGet (exchangeCD = u"XSHG", beginDate = u"20110801", endDate = u"20150801", 
field- ['calendarDate', 'isMonthEnd'], pandas = "1") 

data = data[data['isMonthEnd'] == 1] 

date list = data['calendarDate'].values.tolist() 

cal = Calendar( China. SSE') 

period - Period('- 1B') 


def initialize(account): # 初 始 化 虚拟 账户 状态 
pass 
def handle data(account): ## 每 个 交易 日 的 买 人 卖 出 指令 


today = account.current date 
today = Date.fromDateTime(account.current date) “ 井 向 前 移动 一 个 工作 日 
yesterday = cal.advanceDate(today, period) 
yesterday = yesterday. toDateTime() 
if yesterday. strftime('% Y- $&m- &d') in date list: 
井 净 利润 增长 率 
NetProfitGrowRate = DataAPI. MktStockFactorsOneDayGet(tradeDate = yesterday 
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.strftime('%Y%m%d'), secID= account. universe, field = u" secID, NetProfitGrowRate", 
pandas = "1") 
NetProfitGrowRate.columns - ['secID', 'NetProfitGrowRate'] 
NetProfitGrowRate['ticker'] = NetProfitGrowRate[ 'secID'].apply(lambda x: x[0:6]) 
NetProfitGrowRate.set index('ticker', inplace = True) 
ep 7 NetProfitGrowRate[ 'NetProfitGrowRate'].dropna().to dict() 
signal NetProfitGrowRate = standardize(neutralize(winsorize(ep), 
yesterday.strftime ('& Y $m&d'))) 
井 对 因子 进行 去 极 值 .中 性 化 和 标准 化 处 理 的 信号 
# 权 益 收益 率 
ROE = DataAPI. MktStockFactorsOneDayGet(tradeDate = yesterday. strftime(' & Y & m d'), 
secID = account. universe, field = u" secID, ROE", pandas = "1") 
ROE. columns = ['secID', 'ROE'] 
ROE['ticker'] = ROE['secID'].apply(lambda x: x[0:6]) 
ROE.set index('ticker', inplace = True) 
ep = ROE['ROE'].dropna().to dict() 
signal ROE = standardize(neutralize(winsorize(ep), yesterday. strftime('$ Y & m&d'))) 
# 对 因子 进行 去 极 值 . 中 性 化 和 标准 化 处 理 的 信号 
# 相对 强 弱 指标 
RSI = DataAPI. MktStockFactorsOneDayGet(tradeDate = yesterday. strftime(' % Y% m% d'), 
secID = account. universe, field = u"secID, RSI", pandas = "1" ) 
RSI. columns = ['secID', 'RSI'] 
RSI['ticker'] = RSI['secID'].apply(lambda x: x[0:6]) 
RSI.set index('ticker', inplace = True) 
ep = RSI[ 'RSI']. dropna().to dict() 
if len(ep) == 

return 
signal RSI = standardize(neutralize(winsorize(ep), yesterday. strftime(' Y% m% d'))) 
# 对 因子 进行 去 极 值 . 中 性 化 和 标准 化 处 理 的 信号 
* 构建 组 合 score 矩阵 
weight = np.array([0.4, 0.3, 0.3]) # 信 和 号 合成 ,各 因子 权重 
Total Score = DataFrame( index = RSI. index, columns = [ 'NetProfitGrowRate', 'ROE', 
'RSI'], data= 0) 
Total_Score[ 'NetProfitGrowRate'][signal NetProfitGrowRate.keys()] = 
signal NetProfitGrowRate. values() 
Total Score['ROE'][signal ROE.keys()] signal ROE. values() 
Total Score['RSI'][signal RSI.keys()] = signal RSI.values() 
Total Score['total score'] = np.dot(Total Score, weight) 
total score - Total Score['total score'].to dict() 
wts = simple long only(total score, today. strftime('% Y% m% d')) 
# 调用 组 合 构建 函数 ,组 合 构建 综合 考虑 各 因子 大 小 .行业 配置 等 因素 ,默认 返回 前 30% 的 股票 
# 找 载体 ,将 ticker 转化 为 secID 
RSI['wts'] = np.nan 
RSI['wts'][wts.keys()] = wts.values() 
RSI = RSI[ —np. isnan(RSI[ 'wts'])] 
RSI.set index('secID', inplace = True) 
RSI.drop('RSI', axis- 1, inplace- True) 
# 先 卖 出 
sell list = account.valid secpos 
for stk in sell list: 

order to(stk, 0) 
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井 再 买 人 

buy list = RSI. index 

total money = account. referencePortfolioValue 
prices = account.referencePrice 

for stk in buy list: 


if np.isnan(prices[stk]) or prices[stk] == 0: 
# 因 停牌 或 还 未 上 市 等 原因 不 能 交易 
continue 
order(stk, int(total money * RSI.loc[stk]['wts'] / prices[stk] /100) * 100) 
else: 
return 
运行 上 述 代 码 ,得 到 如 图 18-1 所 示 的 结果 。 
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图 18-1 运行 结果 
接 下 来 绘制 股票 组 合 和 基准 的 累计 收益 率 , 得 到 Alpha 收益 ,看 看 效果 如 何 。 代 码 
如 下 : 


((bt['portfolio value']/bt['portfolio value'][0] - 1) - ((1 + bt['benchmark return']) 
.cumprod() — 1)).plot(figsize- (14,7)) 


运行 上 述 代码 ,得 到 如 图 18-2 所 示 的 结果 。 
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从 图 18-2 可 以 看 到 ,在 净利 润 增长 率 、. 权 益 收益 率 、 相 对 强 弱 指 标 这 3 个 因子 驱动 下 的 
Alpha 收益 相对 来 说 还 是 比较 稳定 的 ,由 于 有 对 冲 ,策略 是 市 场 中 性 的 ,不 论 市 场 涨 跌 , 对 收 
益 是 没有 影响 的 (当然 排除 一 些 极端 情况 ,例如 所 有 股票 收益 没有 任何 差异 性 ,又 如 流动 性 
危机 ) 。 


练习 题 


对 本 章 中 的 例题 数据 ,使 用 Python 重新 操作 一 遍 。 
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第 18 章 介绍 了 如 何在 优 矿 平台 上 建立 Alpha 对 冲模 型 ,本 章 将 重点 介绍 Alpha 对 冲 
模型 的 实战 价值 。 本 章 的 内 容 如 下 : 

CD 为 什么 选择 Alpha 对 冲模 型 。 

(2) 在 优 矿 平台 上 构建 Alpha 对 冲模 型 的 神器 一 一 Signal 框架 。 

(3) 典型 公募 基金 团队 如 何 构建 自己 的 Alpha 对 冲模 型 。 

(4) 如 何在 优 矿 平台 上 一 个 人 击败 一 家 公募 基金 团队 。 


19.1 为 什么 选择 Alpha 对 冲模 型 


1. 有 效 市 场 假说 

20 世纪 70 年 代 , 尤 金 -法 玛 提出 了 有 效 市 场 假说 ,根据 市 场 的 不 同情 况 ,又 可 以 分 为 
3 种 不 同 的 状态 : 弱 式 有 效 . 半 强 式 有 效 和 强 式 有 效 。 

在 纶 式 有 效 下 ,市 场 价格 已 充分 反映 出 所 有 过 去 历史 的 股票 价格 信息 ,这 种 情况 下 , 股 
票 价格 的 技术 分 析 失去 了 作用 ,基本 面 分 析 还 能 帮助 投资 者 获得 超额 收益 。 

从 现 有 的 情况 看 ,成 熟 的 美国 市 场 也 仅仅 处 于 弱 式 有 效 和 半 强 式 有 效 之 间 , 众 多 学 者 研 
究 表明 ,A 股市 场 由 于 散户 参与 量 大 ,目前 处 于 无 效 和 弱 式 有 效 之 间 , 价 格 和 价值 往往 偏差 
较 大 ,非常 适合 用 Alpha 对 冲模 型 来 投资 。 

2. 主动 投资 与 被 动 投 次 

究竟 是 主动 投资 好 还 是 被 动 投资 好 ? 主动 投资 一 定 会 比 被 动 投资 能 够 获得 更 多 的 收益 
吗 ? 这 是 很 难 回答 的 问题 。 

有 众多 学 者 做 过 相关 研究 ,大 多 学 者 发 现 ,从 长 期 来 看 ,被 动 投资 甚至 比 主动 投资 表现 
还 要 好 (虽然 总 有 那么 一 小 部 分 主动 投资 产品 的 表现 是 超过 基准 的 ) ,主动 投资 并 不 一 定 能 
带 来 超额 收益 。 这 里 不 一 一 列举 学 者 们 的 文献 ,只 介绍 一 下 近 几 年 来 风靡 美国 的 机 器 人 投 
顾 创业 公司 ,比如 Wealthfront, 它 们 的 兴起 就 是 从 实际 上 证 明 有 时 候 被 动 投资 并 不 像 大 家 
所 想 的 那么 不 堪 一 击 。 

Alpha 对 冲模 型 虽然 属于 主动 投资 范畴 ,但 从 风险 和 收益 的 角度 来 看 , 它 更 像 有 主动 管 
理 的 被 动 投资 ,Alpha 对 冲模 型 的 目标 就 是 稳健 地 获取 相对 于 基准 指数 的 超额 收益 ,例如 每 
天 比 基 准 指数 多 0.1% 的 收益 。 

主动 管理 的 被 动 投资 , 低 风险 下 稳健 的 超额 收益 ,这 也 是 Alpha 对 冲模 型 的 优势 之 一 。 


3. Alpha 对 冲模 型 自身 的 优势 

Alpha 对 冲模 型 自身 有 以 下 优势 : 

CD 从 量化 产品 的 角度 来 看 ,Alpha 对 冲模 型 也 有 其 独到 的 优势 。 

(2) 市 场 容 量 大 ,冲击 成 本 小 ,Alpha 对 冲模 型 本 身 并 不 建立 在 严格 的 假设 基础 之 上 ， 
投资 方法 成 熟 ,盈利 可 持续 性 强 。 

4. 量化 1.0 v.s. 量 化 2.0 

传统 的 量化 1. 0 主要 依靠 主 信号 十 约束 条 件 的 办 法 ,目前 国内 的 友 商 和 国外 的 友 商 也 
只 能 做 到 这 点 。 

量化 2.0 时 代 ( 目 前 大 部 分 市 场 上 开发 真实 产品 的 量化 基金 的 研发 系统 ) 已 经 把 系统 的 
量化 研究 做 得 更 细致 ,包含 信号 研发 .信号 组 合 与 模型 构建 .风险 模型 以 及 组 合 管理 。 

优 矿 平台 能 够 很 好 地 支持 量化 1. 0 和 量化 2.0, 且 基于 海量 金融 大 数据 ,可 以 使 一 个 人 
完成 一 个 量化 基金 团队 可 以 做 到 的 事情 ,甚至 一 个 人 也 可 以 战胜 Bridgewater 和 TwoSigma 。 


19.2 在 优 矿 平台 上 构建 Alpha 对 冲模 型 的 神器 一 一 
Signal 框架 


1. Alpha 对 冲模 型 构建 方法 

每 次 在 handle data 中 通过 DataAPI 获取 数据 ,然后 根据 数据 构建 信号 、 合 成 信号 。 

本 节 以 经 典 的 Fama-French 三 因子 为 例 ,采用 了 估 值 因子 (市 一 率 , 即 PE) 和 市 值 因 子 
(对 数 流通 市 值 , 即 LELO). 

不 失 一 般 性 ,采用 等 权 的 方式 对 因子 进行 加 权 。 

代码 如 下 。 


import numpy as np 
import pandas as pd 
start = '2011-01-01' 
end = '2016 - 01- 01' 
benchmark = 'HS300' 
universe = set universe( 'HS300') 
capital base - 10000000 
freq = 'd' 
refresh rate - 20 
def initialize(account): 
pass 
def handle data(account): 
# 获 取 上 一 个 交易 日 
yesterday = account.previous date. strftime('% Y% m% d') 
LIUE- E 
PE = DataAPI. MktStockFactorsOneDayGet (tradeDate = yesterday, secID = account. universe, 
field = u"secID, PE", pandas = "1").set index('secID') 
PE = 1.0 / PE 
ep = PE['PE'].dropna().to dict() 
signal PE - pd.Series(standardize(neutralize(winsorize(ep), yesterday))) 
# 对 数 流通 市 值 
LFLO = DataAPI. MktStockFactorsOneDayGet (tradeDate = yesterday, secID = account. universe, 
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field = u"secID, LFLO", pandas = "1").set index('secID') 
LFLO = 1.0 / LFLO 
lflo = LFIO['LFLO'].dropna().to dict() 
signal LFLO 7 pd.Series(standardize(winsorize(lflo))) 
total score - (signal PE * signal LFLO) * 0.5 
wts = simple long only(total score.dropna().to dict(), yesterday) 
# 先 卖 出 
buy list = wts.keys() 
for stk in account. valid secpos: 
if stk not in buy list: 
order to(stk, 0) 
# 再 买 人 
total money = account. referencePortfolioValue 
prices = account. referencePrice 
for stk in buy list: 
if np.isnan(prices[stk]) or prices[stk] == 0: 
continue 
order to(stk, int(total money * wts[stk] / prices[stk] /100) * 100) 


运行 上 述 代 码 ,得 到 如 图 19-1 所 示 的 图 形 。 
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2. Signal 框架 下 的 Alpha 对 冲模 型 

用 第 18 章 中 的 方法 来 构建 Alpha 对 冲模 型 ,可 以 发 现 过 程 比较 烦琐 ,具体 表现 为 : 每 
次 进入 handle data 都 需要 先 取 数据 ,然后 计算 信号 ,最 后 合成 信号 ,所 有 的 这 些 功 能 都 需 
要 自己 写 代 码 。 

在 上 述 3 个 过 程 中 ,唯一 重要 而 且 最 能 体现 投资 者 主观 能 动 性 的 就 是 信号 的 计算 过 程 。 

Signal 框架 就 是 把 很 多 重复 ,烦琐 .没有 价值 的 事情 为 用 户 写 好 了 (如 取 数 据 ) ,用户 只 
用 写 信号 计算 相关 的 代码 就 行 了 。 

下 面 的 例子 就 是 在 Signal 框架 下 实现 上 面 的 策略 ,当然 这 只 是 抛砖引玉 ,关于 Signal 
框架 更 多 的 强大 功能 和 详细 用 法 ,可 参阅 官方 文档 。 

CD) 在 initialize() 之 前 定义 信号 如 何 计算 的 函数 。 

(2) 在 initialize() 中 注册 信号。 

(3) 在 handle_data() 中 直接 通过 account. signal_result 获取 信号 的 值 。 

代码 如 下 。 


start = '2010-12-31' 


end = '2016-01-01' 

benchmark = 'HS300' 

universe = set universe( 'HS300') 

capital base - 10000000 

freq = 'd' 

refresh rate - 20 

def fama french(data, dependencies = [ 'PE', 'LFLO'], max window- 1): 
yesterday = data['PE']. index[ - 1] # 获 取 上 个 交易 日 
pe = 1.0 / data[ 'PE']. ix[ - 1] # 因子 处 理 , 下 同 
signal PE = pd.Series(standardize(neutralize(winsorize(pe), yesterday))) 
lflo = 1.0 / data[ LFLO']. ix[ - 1] 
signal LFLO - pd.Series(standardize(winsorize(lflo))) 


return (signal PE+ signal LFLO) * 0.5 井 信号 合成 ,等 权 处 理 

def initialize(account) : # 初 始 化 虚拟 账户 状态 
a = Signal('my signal', fama french) # 将 信号 的 生成 函数 告诉 框架 
account. signal generator = SignalGenerator(a) 

def handle data(account): # 每 个 交易 日 的 买卖 出 指令 


yesterday = account.previous date.strftime('& Y* m &d') 
total score - account.signal result['my signal'].dropna().to dict() 
# 1E handle data 中 获取 计算 好 的 信号 值 
wts = simple long only(total score, yesterday) 
# 先 卖 出 
buy_list = wts.keys() 
for stk in account. valid secpos: 
if stk not in buy list: 
order to(stk, 0) 
# 再 买 人 
total money = account. referencePortfolioValue 
prices = account. referencePrice 
for stk in buy list: 
if np.isnan(prices[stk]) or prices[stk] == 0: 
continue 
order to(stk, int(total money * wts[stk] / prices[stk] /100) * 100) 


运行 上 面 的 代码 ,得 到 如 图 19-2 所 示 的 结果 。 
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图 19-2 运行 结果 
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由 图 19-2 可 见 , 只 需要 在 fama-french() 函 数 中 定义 信号 的 计算 方法 ,然后 就 可 以 直接 
在 handle_data() 中 取 计 算 好 的 信号 数据 ,非常 简便 。 接 下 来 就 来 看 看 在 传统 的 公募 基金 里 
构建 一 个 Alpha 对 冲模 型 是 多 么 费时 费力 的 事情 。 


19.3 ”典型 公募 基金 团队 如 何 构 建 自己 的 Alpha 对 冲模 型 


本 节 从 构建 Alpha 对 冲模 型 的 流程 来 讲述 公募 基金 团队 的 人 员 构 成 。 

CD 数据 : Alpha 对 冲模 型 的 原材料 。 众 多 因子 数据 需要 团队 成 员 计算 和 维护 ,另外 还 
需要 研究 员 不 断 开 发 出 新 的 信号 。 

(2) 回 测 框架 : 每 个 公司 都 有 一 个 自 定义 的 回 测 框 架 。 研 究 员 需 要 开发 并 维护 回 测 框 
架 , 而 且 还 需要 对 因子 数据 进行 回 测验 证 。 

(3) 构建 策略 。 投 资 经 理 根据 数据 和 回 测 结果 来 构建 自己 的 投资 组 合 。 

(4) 模拟 交易 。 构 建 好 策略 之 后 并 不 是 直接 上 实 盘 , 还 需要 模拟 交易 一 段 时 间 ,在 模拟 
环境 中 查 漏 补缺 。 

O 实 盘 投 资 。 一 切 工作 就 绪 后 ,交易 员 就 在 投资 经 理 的 指导 下 逐步 建仓 。 

以 上 5 点 看 似 简单 ,但 是 每 一 点 都 包含 着 巨大 的 工作 量 。 例 如 ,因子 的 计算 与 维护 一 般 
都 涉及 几 百 个 因子 ,每 个 因子 的 处 理 方式 又 各 有 差异 。 总 的 来 说 ,开发 一 个 多 因子 量化 产品 
绝对 是 需要 一 个 团队 的 力量 来 完成 的 。 


19.4 如 何在 优 矿 平台 上 一 人 超越 一 个 公募 基金 团队 


按照 19. 3 节 列 出 的 5 点 , 先 来 看 在 优 矿 平台 上 一 人 如 何 超越 一 个 公募 基金 团队 。 

CD 数据 。DataAPI 提供 了 海量 的 因子 数据 ,有 几 百 个 基本 面 、 技 术 面 .大 数据 类 因子 
可 供 选 择 ,并 可 以 任意 组 合 。 

(2) 回 测 框架 。 更 高 效 . 更 真实 的 回 测 框架 Quartz 为 用 户 护航 。 

(3) 构建 策略 。Signal 框架 让 代码 更 简洁 ,让 投资 更 简单 。 

(4) 模拟 交易 。 最 真实 的 模拟 环境 ,根据 策略 信号 模拟 每 天 的 收益 状况 。 

O) 实 盘 交 易 。 受 国家 政策 限制 ,现在 暂 不 能 支持 自动 下 单 , 但 将 来 能 够 提供 从 投资 研 
究 到 实 盘 交易 的 自动 化 一 站 式 服务 。 

下 面 进行 简单 的 业绩 对 比 。 

为 了 体现 代表 性 ,选择 大 公募 基金 里 运行 时 间 较 长 的 Alpha 基金 产品 作为 对 比 的 对 
象 ,在 经 过 筛选 后 ,选择 了 上 投 摩根 的 上 投 阿 尔 法 产品 (377010)。 上 投 摩根 是 大 公募 基金 的 
代表 ,而 上 投 阿尔 法 成 立 于 2005 年 ,经受 住 了 时 间 的 考验 ,代表 性 较 强 。 

优 矿 平台 拿 什 么 来 进行 比较 呢 ? 优 矿 平台 现在 有 500 万 实 盘 ,但 运行 时 间 太 短 ,不 具 代 
表 性 。 

折 中 一 下 , 优 矿 平台 拿 Quartz 框架 下 的 回 测 数据 来 比较 ,但 读者 可 能 会 说 回 测 结果 可 
以 参数 优化 ,所 以 为 了 对 比 的 一 致 性 , 回 测 的 Alpha 策略 不 做 任何 优化 ,就 用 上 面 介绍 的 经 
典 Fama-French 三 因子 ,因子 权重 也 不 优化 ,采用 等 权 处 理 。 

对 比 时 间 尽 可 能 长 , 取 5 年 ,从 2011 年 1 月 1 日 至 2016 年 1 月 1 日 。 

不 带 太 多 参数 优化 有 投资 逻辑 的 Alpha 模型 ,其 回 测 结果 和 实 盘 结果 的 一 致 性 还 是 
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由 图 19-2 可 见 , 只 需要 在 fama-french() 函 数 中 定义 信号 的 计算 方法 ,然后 就 可 以 直接 
在 handle_data() 中 取 计 算 好 的 信号 数据 ,非常 简便 。 接 下 来 就 来 看 看 在 传统 的 公募 基金 里 
构建 一 个 Alpha 对 冲模 型 是 多 么 费时 费力 的 事情 。 


19.3 ”典型 公募 基金 团队 如 何 构 建 自己 的 Alpha 对 冲模 型 


本 节 从 构建 Alpha 对 冲模 型 的 流程 来 讲述 公募 基金 团队 的 人 员 构 成 。 

CD 数据 : Alpha 对 冲模 型 的 原材料 。 众 多 因子 数据 需要 团队 成 员 计算 和 维护 ,另外 还 
需要 研究 员 不 断 开 发 出 新 的 信号 。 

(2) 回 测 框架 : 每 个 公司 都 有 一 个 自 定义 的 回 测 框 架 。 研 究 员 需 要 开发 并 维护 回 测 框 
架 , 而 且 还 需要 对 因子 数据 进行 回 测验 证 。 

(3) 构建 策略 。 投 资 经 理 根据 数据 和 回 测 结果 来 构建 自己 的 投资 组 合 。 

(4) 模拟 交易 。 构 建 好 策略 之 后 并 不 是 直接 上 实 盘 , 还 需要 模拟 交易 一 段 时 间 ,在 模拟 
环境 中 查 漏 补缺 。 

O 实 盘 投 资 。 一 切 工作 就 绪 后 ,交易 员 就 在 投资 经 理 的 指导 下 逐步 建仓 。 

以 上 5 点 看 似 简单 ,但 是 每 一 点 都 包含 着 巨大 的 工作 量 。 例 如 ,因子 的 计算 与 维护 一 般 
都 涉及 几 百 个 因子 ,每 个 因子 的 处 理 方式 又 各 有 差异 。 总 的 来 说 ,开发 一 个 多 因子 量化 产品 
绝对 是 需要 一 个 团队 的 力量 来 完成 的 。 


19.4 如 何在 优 矿 平台 上 一 人 超越 一 个 公募 基金 团队 


按照 19. 3 节 列 出 的 5 点 , 先 来 看 在 优 矿 平台 上 一 人 如 何 超越 一 个 公募 基金 团队 。 

CD 数据 。DataAPI 提供 了 海量 的 因子 数据 ,有 几 百 个 基本 面 、 技 术 面 .大 数据 类 因子 
可 供 选 择 ,并 可 以 任意 组 合 。 

(2) 回 测 框架 。 更 高 效 . 更 真实 的 回 测 框架 Quartz 为 用 户 护航 。 

(3) 构建 策略 。Signal 框架 让 代码 更 简洁 ,让 投资 更 简单 。 

(4) 模拟 交易 。 最 真实 的 模拟 环境 ,根据 策略 信号 模拟 每 天 的 收益 状况 。 

O) 实 盘 交 易 。 受 国家 政策 限制 ,现在 暂 不 能 支持 自动 下 单 , 但 将 来 能 够 提供 从 投资 研 
究 到 实 盘 交易 的 自动 化 一 站 式 服务 。 

下 面 进行 简单 的 业绩 对 比 。 

为 了 体现 代表 性 ,选择 大 公募 基金 里 运行 时 间 较 长 的 Alpha 基金 产品 作为 对 比 的 对 
象 ,在 经 过 筛选 后 ,选择 了 上 投 摩根 的 上 投 阿 尔 法 产品 (377010)。 上 投 摩根 是 大 公募 基金 的 
代表 ,而 上 投 阿尔 法 成 立 于 2005 年 ,经受 住 了 时 间 的 考验 ,代表 性 较 强 。 

优 矿 平台 拿 什 么 来 进行 比较 呢 ? 优 矿 平台 现在 有 500 万 实 盘 ,但 运行 时 间 太 短 ,不 具 代 
表 性 。 

折 中 一 下 , 优 矿 平台 拿 Quartz 框架 下 的 回 测 数据 来 比较 ,但 读者 可 能 会 说 回 测 结果 可 
以 参数 优化 ,所 以 为 了 对 比 的 一 致 性 , 回 测 的 Alpha 策略 不 做 任何 优化 ,就 用 上 面 介绍 的 经 
典 Fama-French 三 因子 ,因子 权重 也 不 优化 ,采用 等 权 处 理 。 

对 比 时 间 尽 可 能 长 , 取 5 年 ,从 2011 年 1 月 1 日 至 2016 年 1 月 1 日 。 

不 带 太 多 参数 优化 有 投资 逻辑 的 Alpha 模型 ,其 回 测 结果 和 实 盘 结果 的 一 致 性 还 是 
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非常 高 的 (经 500 万 实 盘 大 赛 验 证 ) 。 
首先 来 看 上 投 阿 尔 法 从 2011 年 1 月 1 日 至 2016 年 1 月 1 日 的 收益 表现 ,产品 链接 为 
http://www. 51fund. com/fund/377010/#go,; 截 取 的 收益 率 对 比 图 如 图 19-3 所 示 。 


(se 


2011-01-04 2012-04-05 2013-07-05 2014-09-30 2015-12-3: 
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19-3 ”收益 率 对 比 图 


从 图 19-3 可 以 看 出 ,在 对 比 区 间 内 ,上 投 阿尔 法 的 收益 率 低 于 基准 指数 ,不 管 是 上 证 综 
合 指 数 还 是 沪 深 300 指数 。 

下 面 来 看 两 条 收益 线 之 差 的 变化 情况 。 

# 计 算 超额 收益 (日 度 ) 

bt['cum ret'] = ((bt['portfolio value']/bt['portfolio value'][0] - 1) - ((1 + bt['benchmark | 

return']).cumprod() - 1)) 

bt[[ 'tradeDate', 'cum ret']].plot(x- 'tradeDate', figsize- (15,6)).legend(fontsize- 14) 


运行 上 述 代码 ,可 以 得 到 如 图 19-4 所 示 的 图 形 。 
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图 19-4 两 条 收益 线 之 差 
从 图 19-4 可 以 看 到 ,超额 收益 在 回 测 期 间 基本 能 实现 持续 稳定 的 增长 。Fama-French 


三 因子 作为 业界 经 典 也 有 其 投资 逻辑 ,由 此 可 见 ,没有 太 多 参数 优化 有 投资 逻辑 的 Alpha 
模型 ,其 回 测 结果 和 实 盘 结果 的 一 致 性 是 非常 高 的 。 
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拿 回 测 盘 和 实 盘 比 确实 有 失 公 人 允 ,但 没有 任何 参数 优化 、 没 有 任何 因子 偏好 的 回 测 结 果 
还 是 有 一 定 的 代表 性 的 ,这 至 少 说 明 ,在 优 矿 平台 上 一 个 人 用 20 行 左右 的 代码 就 能 够 干 一 
个 公募 基金 团队 干 的 事情 ,而 且 实 战 结果 也 不 一 定 比 他 们 差 , 甚 至 更 好 。 

以 上 的 例子 也 只 是 简单 地 拿 学 术 界 经 典 文献 中 的 数据 作为 范例 。DataAPI 中 提供 了 几 
百 个 因子 数据 ,包括 基本 面 的 ,技术 面 的 ,大 数据 类 的 等 等 ,如 何 将 因子 数据 转化 为 实际 财富 
就 看 自己 的 本 事 了 。 男 外 ,DataAPIl 也 提供 了 海量 基础 数据 ,用 户 完全 可 以 根据 基础 数据 自 
定义 因子 ,同时 在 因子 合成 上 也 可 以 做 很 多 工作 (并 非 像 例子 中 的 直接 等 权 )。 想 象 空间 是 
无 限 的 , 接 下 来 看 各 位 的 了 。 


练习 题 


对 本 章 中 的 例题 数据 ,使 用 Python 重新 操作 一 遍 。 
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€ 3520* Python 应 用 


使 -ee-e 


本 章 介绍 马 科 维 茨 投资 组 合 优化 的 Python 应 用 。 
注意 ,本 章 内 容 在 IPython 环境 调试 通过 。 


20.1 马 科 维 茨 投资 组 合 优化 基本 理论 


多 股票 策略 回 测 时 常常 遇 到 仓位 如 何 分 配 的 问题 。 其 实 ,这 个 问题 早 在 1952 年 马 科 维 
茨 (Markowitz) 就 给 出 了 答案 一 一 投资 组 合理 论 。 根 据 这 个 理论 ,可 以 对 多 资产 的 组 合 配 
置 进行 3 方面 的 优化 。 

CD 找到 有 效 边界 (或 有 效 前 沿 ) ,在 既定 的 收益 率 下 使 投资 组 合 的 方差 最 小 化 。 

(2) 找到 夏普 比 (Sharpe ratio) 最 优 的 投资 组 合 (收益 -风险 均衡 点 ) 。 

(3) 找到 风险 最 小 的 投资 组 合 。 

该 理论 基于 用 均值 方差 模型 来 表述 投资 组 合 优 劣 的 前 提 。 本 章 将 选取 几 只 股票 ,用 蒙 
特 卡 洛 模拟 来 探究 投资 组 合 的 有 效 边界 。 通 过 夏普 比 最 大 化 和 方差 最 小 化 两 种 优化 方法 来 
找到 最 优 的 投资 组 合 配置 权重 参数 。 最 后 ,刻画 出 可 能 的 分 布 两 种 最 优 组 合 以 及 组 合 的 有 
效 边界 。 


20.2 投资 组 合 优化 的 Python 应 用 实例 


现 有 3 个 投资 对 象 的 单项 回报 率 历史 数据 如 表 20-1 所 示 。 
表 20-1 3 个 投资 对 象 的 单项 回报 率 历史 数据 


时 期 股 票 1 股 票 2 债 券 
1 0. 00 0.07 0.06 
2 0. 04 0.13 0.07 
3 0.13 0.14 0. 05 
4 0.19 0.43 0.04 
5 —0.15 0.67 0.07 
6 —0. 27 0. 64 0.08 
7 0. 37 0. 00 0.06 
8 0. 24 —0.22 0.04 
9 —0. 07 0.18 0.05 

10 0.07 0.31 0.07 
H 0.19 0.59 0.10 


Sx 
时 期 股 票 1 股 票 2 
12 0. 33 0.99 0.11 
13 —0.05 —0.25 0.15 
14 0.22 0.04 0.11 
15 0.23 —0.11 0.09 
16 0. 06 —0.15 0.10 
17 0.32 —0.12 0.08 
18 0.19 0.16 0.06 
19 0.05 0.22 0.05 
20 0.17 — 0.02 0.07 


求 这 3 个 资产 的 投资 组 合 夏普 比 最 大 化 和 方差 最 小 化 的 权 数 。 
先 用 表 20-1 的 数据 在 目录 G:\2glkx\data 下 建立 tzsy. xls 数据 文件 。 


# 准 备 工作 

import pandas as pd 

import numpy as np # 数 值 计算 
import statsmodels.api as sm # 统 计 计算 
import scipy. stats as scs # 科 学 计算 
import matplotlib.pyplot as plt # 绘 制图 形 
1. 选取 股票 

代码 如 下 : 

# 取 数 


data = pd.DataFrame() 

data = pd. read excel( 'G:\\2glkx\\data\\tzsy. xls') 
data = pd. DataFrame(data) 

# 清理 数据 

data = data. dropna() 

data. head( ) 

data.plot(figsize - (8,3)) 


运行 上 面 的 代码 ,得 到 如 图 20-1 所 示 的 图 形 。 
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图 20-1 3 个 投资 对 象 的 收益 率 变化 


2. 计算 不 同 证 券 的 均值 和 协 方差 
代码 如 下 : 


returns = 


data 


returns.mean() 


Out[8]: 

sl 0.1130 
s2 0.1850 
b 0.0755 


dtype: float64 
returns. cov() 


Out[9]: 

sl s2 b 
sl 0.027433 -0.010768  - 0.000133 
s2 -0.010768 0.110153 - 0.000124 
b —0.000133 4 -— 0.000124 0.000773 


3. 给 不 同 资产 随机 分 配 初始 权重 
代码 如 下 : 


noa=3 


weights = np. random. random(noa) 
weights /= np.sum(weights) 
weights 


Out[10]: array([0. 23377046, 0.51393812, 0.25229142]) 


4. 计算 资产 组 合 的 预期 收益 ,方差 和 标准 差 
代码 如 下 : 


np. sum(returns.mean() * weights) 

Out[12]: 0.14054261642690027 

np.dot(weights.T, np.dot(returns.cov(),weights)) 

Out[13]: 0.028007968937959201 

np. Sqrt(np.dot(weights.T, np.dot(returns.cov(),weights))) 
Out[15]: 0.16735581536940747 


5. 用 蒙特 卡 洛 模拟 产生 大 量 随机 组 合 
对 于 给 定 的 一 个 股票 池 ( 证 券 组 合 ) .如何 找到 风险 和 收益 平衡 的 位 置 ? 下 面 通过 一 次 
蒙特 卡 洛 模拟 产生 大 量 随机 的 权重 向 量 ,并 记录 随机 组 合 的 预期 收益 和 方差 。 


port returns = [] 
port variance = [] 
for p in range(4000) : 
weights = np. random. random( noa) 
weights /= np. sum( weights) 
port_returns. append(np. sum(returns.mean() * weights) ) 
port variance. append(np. sqrt(np. dot(weights. T, np.dot(returns.cov(), weights) ))) 
port returns = np.array(port returns) 
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port variance = np.array(port variance) 

# 无 风险 利率 设 定 为 4% 

risk free = 0.04 

plt. figure(figsize = (8,3)) 

plt.scatter(port variance, port returns, c= (port returns — risk free)/port variance, marker = 'o') 
plt.grid(True) 

plt.xlabel('excepted volatility') 

plt. ylabel('expected return') 

plt.colorbar(label = 'Sharpe ratio') 


运行 上 面 的 代码 ,得 到 如 图 20-2 所 示 的 图 形 。 
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图 20-2 蒙特 卡 洛 模拟 产生 大 量 随机 投资 组 合 


6. 夏普 比 最 大 的 投资 组 合 优化 
建立 statistics 函数 来 记录 重要 的 投资 组 合 统计 数据 (收益 、 方 差 和 夏普 比 ), 通 过 对 约 
束 最 优 问题 的 求解 得 到 最 优 解 。 其 中 约束 是 权重 总 和 为 1 。 


def statistics(weights): 
weights = np.array(weights) 
port_returns = np. sum(returns.mean() * weights) 
port variance = np. sqrt(np. dot(weights.T, np.dot(returns.cov(),weights))) 
return np.array([port returns, port variance, port returns/port variance]) 
# 最 优化 投资 组 合 的 推导 是 一 个 约束 最 优化 问题 
import scipy. optimize as sco 
H 最 小 化 夏普 比 的 负 值 
def min sharpe(weights): 
return - statistics(weights)[2] 
# 约束 是 所 有 参数 (权重 ) 的 总 和 为 1. 这 可 以 用 minimize 函数 的 约定 表达 如 下 
cons = (('type':'eq', 'fun':lambda x: np.sum(x) 一 1}) 
## 将 参数 值 (权重 ) 限 制 在 0 和 1 之 间 . 这 些 值 以 元 组 的 形式 提供 给 最 小 化 函数 
bnds = tuple((0,1) for x in range(noa)) 
# 优 化 函数 调用 中 忽略 的 唯一 输入 是 起 始 参数 列表 (对 权重 的 初始 猜测 ). 本 例 使 用 简单 的 平均 分 布 
opts = sco.minimize(min sharpe, noa x [1./noa,], method = 'SLSQP', bounds = bnds, constraints = cons) 
opts 


得 到 如 下 结果 : 


fun: —2.9195938061882454 


UP puaw&gAXPMRRR 0000000 
jac:array([0.01298031, — 0.00767258, -— 0.00054446, 0. ]) 
message: 'Optimization terminated successfully. ' 
nfev: 44 
nit: 8 
njev: 8 
status: 0 
success: True 
x:array([0.05163244, 0.02181969, 0.92654787]) 


得 到 的 最 优 组 合 权重 向 量 为 


opts[ 'x']. round(3) 
Out[21]: array([0.052, 0.022, 0.927]) 


夏普 比 最 大 的 组 合 的 3 个 统计 数据 分 别 为 
5 预期 收益 率 、 预 期 波动 率 和 最 优 夏普 比 


statistics(opts['x']). round(3) 

Out[24]: array([0.08, 0.027, 2.92 ]) 

7. 风险 (方差 ) 最 小 的 投资 组 合 优化 

下 面 通过 方差 最 小 化 选 出 最 优 投资 组 合 : 


def min variance(weights): 
return statistics(weights)[1] 


optv = sco. minimize(min variance, noa * [1./noa,], method = 'SLSQP', bounds = bnds, 
constraints = cons) 

optv 

Out[25] : 


fun: 0.027037791350341657 
jac:array([ 0.0262073, 0.02867849, 0.02704901, 0. ]) 
message: 'Optimization terminated successfully. ' 
nfev:42 
nit:8 
njev: 8 
status:0 
Success: True 
x:array([0.03570797, 0.01117468, 0.95311736]) 


方差 最 小 的 最 优 组 合 权 重 向 量 及 组 合 的 统计 数据 分 别 为 


optv[ 'x']. round(3) 

Out[26]: array([0.036, 0.011, 0.953]) 
# 得 到 的 预期 收益 率 、 波 动 率 和 夏普 比 
statistics(optv[ 'x']). round(3) 
Out[27]: array([0.078, 0.027, 2.887]) 


8. 投资 组 合 的 有 效 边界 


有 效 边界 由 既定 的 目标 收益 率 下 方差 最 小 的 投资 组 合 构成 。 
在 最 优化 时 采用 两 个 约束 : 一 是 给 定 目标 收益 率 , 二 是 投资 组 合 权重 和 为 1 。 
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def nin variance(weights): 
return statistics(weights)[1] 
# 在 不 同 目标 收益 率 水 平 (target_returns) 循 环 时 ,最 小 化 的 一 个 约束 条 件 会 变化 
target returns = np.linspace(0.0,0.5,50) 
target variance - [] 
for tar in target returns: 
cons 7 (('type':'eq', 'fun':lambda x:statistics(x)[0] - tar], 
{'type': 'eq', '£un': lambda x:np. sun(x) - 1}) 
res = sco. minimize (min_ variance, noa * [1./noa,], method = 'SLSQP', bounds = bnds, 
constraints - cons) 
target variance. append(res[ 'fun']) 
target variance - np.array(target variance) 


在 最 优化 结果 的 图 形 中 ,以 又 号 构成 的 曲线 是 有 效 边 界 ( 目 标 收益 率 下 最 优 的 投资 组 
合 ) ,以 红星 表示 夏普 比 最 大 的 投资 组 合 , 以 黄 星 表示 方差 最 小 的 投资 组 合 。 


plt.figure(figsize = (8,3)) 

# 圆圈 : 蒙特 卡 洛 随机 产生 的 组 合 分 布 

plt.scatter(port variance, port returns, c = port returns/port variance,marker = 'o') 
HLF: 有 效 边界 

plt. scatter(target_variance target_returns, c = target returns/target variance, marker = 'x') 
HAE: 标记 夏普 比 最 大 的 投资 组 合 


plt.plot(statistics(opts['x'])[1], statistics(opts['x'])[0], 'r* ', markersize = 15.0) 
HRE: 标记 方差 最 小 的 投资 组 合 
plt.plot(statistics(optv['x'])[1], statistics(optv['x'])[0], 'y* ', markersize = 15.0) 


plt.grid(True) 

plt.xlabel('expected volatility') 
plt. ylabel('expected return') 
plt.colorbar(label = 'Sharpe ratio') 


运行 上 面 的 代码 , 即 得 到 如 图 20-3 所 示 的 图 形 。 
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图 20-3 投资 组 合 的 有 效 边界 


20.3 投资 组 合 优化 实际 数据 的 Python 应 用 
首先 导入 需要 的 程序 包 : 


import tushare as ts # 需 先 安装 tushare 程序 包 
# 此 程序 包 的 安装 命令 : pip install tushare 
import pandas as pd 
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import numpy as np 井 数值 计算 
import statsmodels.api as sm # 统 计 运算 
import scipy. stats as scs 井 科 学 计算 
import matplotlib. pyplot as plt # 绘 图 


1. 选择 股票 代号 .获取 股票 数据 清理 及 可 视 化 


symbols = ['hs300', '600000', '000980', '000981'] 

# 把 相应 股票 的 收盘 价 按照 日 期 顺序 存 人 DataFrane 对 象 中 

data = pd.DataFrame() 

hs300 data = ts.get hist data('hs300','2016— 01— 01','2016- 12- 31") 
hs300 data = hs300 data['close'] # 取 沪 深 300 指数 收盘 价 数据 
hs300 data = hs300 data[::- 1] # 按 日 期 小 到 大 排序 
data['hs300'] = hs300 data 

datal = ts.get hist data('600000','2016 — 01 - 01','2016 - 12- 31") 
datal = datal['close'] # 浦 发 银行 股票 收盘 价 数据 
datal = datal[::- 1] 

data['600000'] = datal 

data2 = ts.get hist data('000980','2016 - 01 - 01','2016 - 12- 31") 
data2 = data2['close'] # 金 马 股份 收盘 价 数据 
data2 = data2[::- 1] 

data['000980'] = data2 

data3 = ts.get hist data('000981','2016 - 01 - 01','2016 - 12- 31") 
data3 = data3['close'] # 银 亿 股份 收盘 价 数据 
data3 = data3[::- 1] 

data['000981'] = data3 

# 数 据 清理 

data = data. dropna() 

data. head( ) 

# 规 范 化 后 的 时 序数 据 

(data/data.ix[0] * 100).plot(figsize = (8,4)) 


运行 上 面 的 代码 ,得 到 如 图 20-4 所 示 的 图 形 。 
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图 20-4 规范 化 后 的 时 序 价格 变化 
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2. 计算 不 同 股票 的 均值 . 协 方差 和 相关 系数 
计算 投资 资产 的 协 方差 是 构建 资产 组 合 过 程 的 核心 部 分 。 运 用 pandas 内 置 方法 生成 
协 方差 矩阵 。 


returns = np.log(data / data. shift(1)) 
returns.mean() * 252 


Out[63]: 

hs300 0.073141 
600000 — 0.150356 
000980 1.044763 
000981 0.252343 


dtype: float64 
returns.cov() # 计算 协 方差 


out[64] : 

hs300 600000 000980 000981 
hs300 0.000083 0.000051 0.000088 0.000095 
600000 0.000051 0.000236 0.000081 0.000048 
000980 0.000088 0.000081 0.001279 0.000111 
000981 0.000095 0.000048 0.000111 0.000935 
returns.corr() & 计算 相关 系数 

hs300 600000 000980 000981 
hs300 1.000000 0.363061 0.269357 0.341314 
600000 0.363061 1.000000 0.146524 0.102416 
000980 0.269357 0.146524 1.000000 0.101860 
000981 0.341314 0.102416 0.101860 1.000000 


从 上 可 见 ,各 股票 之 间 的 相关 系数 不 太 大 ,可 以 做 投资 组 合 。 
3. 给 不 同 资产 随机 分 配 初始 权重 
假设 不 允许 建立 空头 头寸 ,所 有 的 权重 系数 均 在 0.1 之 间 。 


noa-4 

weights = np.random. random(noa) 

weights / = np.sum(weights) 

weights 

Out[65]: array([0.52080962, 0.33183961, 0.12028388, 0.02706689]) 


4. 计算 预期 组 合 收益 .组 合 方差 和 组 合 标准 差 
代码 如 下 : 


np. sum(returns.mean() * weights) 

Out[66]: 0.0004789557948133873 

np.dot(weights. T, np.dot(returns.cov(),weights)) 

Out[67]: 0.00010701777937859502 

np. sqrt(np.dot(weights.T, np.dot(returns.cov(),weights))) 
Out[68]: 0.010344939795793644 


5. 用 蒙特 卡 洛 模拟 产生 大 量 随机 组 合 
现在 ,我 们 最 想 知道 的 是 : 给 定 一 个 股票 池 ( 投 资 组 合 ) ,如 何 找到 风险 和 收益 平衡 的 位 


置 。 下 面 通过 一 次 蒙特 卡 洛 模拟 产生 大 量 随机 的 权重 向 量 , 并 记录 随机 组 合 的 预期 收益 和 
方差 。 


port returns = [] 
port variance = [] 
for p in range(4000) : 
weights = np. random. random(noa) 
weights / = np. sum(weights) 
port returns. append(np. sum( returns. mean( ) * 252 * weights) ) 
port variance. append(np. sqrt(np. dot(weights. T, np. dot(returns.cov() * 252, weights) ))) 
port returns - np.array(port returns) 
port variance - np.array(port variance) 
BOGAERIEUE EX 1.55 
risk free - 0.015 
plt.figure(figsize = (8,4)) 
plt.scatter(port variance, port returns, c= (port returns - risk free)/port variance, marker = 'o') 
plt.grid(True) 
plt.xlabel('excepted volatility') 
plt. ylabel('expected return') 
plt.colorbar(label = 'Sharpe ratio') 


运行 上 面 的 代码 ,得 到 如 图 20-5 所 示 的 图 形 。 
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图 20-5 蒙特 卡 洛 模拟 产生 大 量 随机 组 合 


6. 夏普 比 最 大 的 投资 组 合 优化 
建立 statistics 函数 来 记录 重要 的 投资 组 合 统计 数据 (收益 、 方 差 和 夏普 比 ) 。 
通过 对 约束 最 优 问题 的 求解 得 到 最 优 解 。 其 中 约束 是 权重 总 和 为 1。 


def statistics(weights): 
weights = np.array(weights) 
port returns = np.sum(returns.mean() * weights) * 252 
port variance = np.sqrt(np.dot(weights.T, np.dot(returns.cov() * 252, weights) )) 
return np.array([port returns, port variance, port returns/port variance]) 
# 最 优化 投资 组 合 的 推导 是 一 个 约束 最 优化 问题 
import scipy. optimize as sco 
# 最 小 化 夏普 比 的 负 值 
def min_sharpe( weights) : 
return - statistics(weights)[2] 


# 约束 是 所 有 参数 (权重 ) 的 总 和 为 1. 这 可 以 用 minimize 函数 的 约定 表达 如 下 

cons = (('type':'eq', 'fun':lambda x: np. sum(x) 一 1}) 

# 将 参数 值 (权重 ) 限 制 在 0 和 1 之 间 . 这 些 值 以 元 组 的 形式 提供 给 最 小 化 函数 

bnds = tuple((0,1) for x in range(noa)) 

# 优 化 函数 调用 中 忽略 的 唯一 输入 是 起 始 参数 列表 (对 权重 的 初始 猜测 ). 本 例 使 用 简单 的 平均 分 布 
opts = sco. minimize (min sharpe, noa * [1./noa,], method = 'SLSQP', bounds = bnds, 
constraints = cons) 

opts 


运行 上 述 代 码 ,得 到 如 下 结果 : 


Out[90]: 
fun: —1.870564674629059 
jac:array([ 2.87091583e - 02, 4.62549537e—- 01, - 4.63277102e- 05, 
2.12848186e - 04, 0.00000000e * 00]) 
message: 'Optimization terminated successfully. ' 
nfev:37 
nit:6 
njev:6 
status:0 
success:True 
x:array([ 8.45677695e - 18, 0.00000000e + 00, 8. 21263786e - 01, 
1. 78736214e - 01]) 


输入 如 下 代码 : 
opts[ 'x']. round(3) 
得 到 的 最 优 组 合 权 重 向 量 为 


Out[91]: array([0., 0., 0.821, 0.179]) 


# 预期 收益 率 、 预 期 波动 率 和 最 优 夏 普 比 
statistics(opts['x']). round(3) 


得 到 夏普 比 最 大 的 组 合 的 3 个 统计 数据 分 别 为 


Out[92]: array([0.903, 0.483, 1.871]) 


7. 风险 (方差 ) 最 小 的 投资 组 合 优化 
下 面 通过 方差 最 小 化 选 出 最 优 投资 组 合 : 


def min_variance( weights) : 
return statistics(weights)[1] 
optv = sco. minimize(min variance, noa * [1./noa,], method = 'SLSQP', bounds = bnds, 
constraints - cons) 
optv 


运行 上 面 的 代码 ,得 到 如 下 结果 : 


Out[94]: 
fun:0.14048796305920866 
jac: array([ 0.14040739, 0.14094629, 0.15554342, 0.15803597, 0. ]) 
message: 'Optimization terminated successfully. ' 


# 约束 是 所 有 参数 (权重 ) 的 总 和 为 1. 这 可 以 用 minimize 函数 的 约定 表达 如 下 

cons = (('type':'eq', 'fun':lambda x: np. sum(x) 一 1}) 

# 将 参数 值 (权重 ) 限 制 在 0 和 1 之 间 . 这 些 值 以 元 组 的 形式 提供 给 最 小 化 函数 

bnds = tuple((0,1) for x in range(noa)) 

# 优 化 函数 调用 中 忽略 的 唯一 输入 是 起 始 参数 列表 (对 权重 的 初始 猜测 ). 本 例 使 用 简单 的 平均 分 布 
opts = sco. minimize (min sharpe, noa * [1./noa,], method = 'SLSQP', bounds = bnds, 
constraints = cons) 

opts 


运行 上 述 代 码 ,得 到 如 下 结果 : 


Out[90]: 
fun: —1.870564674629059 
jac:array([ 2.87091583e - 02, 4.62549537e—- 01, - 4.63277102e- 05, 
2.12848186e - 04, 0.00000000e * 00]) 
message: 'Optimization terminated successfully. ' 
nfev:37 
nit:6 
njev:6 
status:0 
success:True 
x:array([ 8.45677695e - 18, 0.00000000e + 00, 8. 21263786e - 01, 
1. 78736214e - 01]) 


输入 如 下 代码 : 
opts[ 'x']. round(3) 
得 到 的 最 优 组 合 权 重 向 量 为 


Out[91]: array([0., 0., 0.821, 0.179]) 


# 预期 收益 率 、 预 期 波动 率 和 最 优 夏 普 比 
statistics(opts['x']). round(3) 


得 到 夏普 比 最 大 的 组 合 的 3 个 统计 数据 分 别 为 


Out[92]: array([0.903, 0.483, 1.871]) 


7. 风险 (方差 ) 最 小 的 投资 组 合 优化 
下 面 通过 方差 最 小 化 选 出 最 优 投资 组 合 : 


def min_variance( weights) : 
return statistics(weights)[1] 
optv = sco. minimize(min variance, noa * [1./noa,], method = 'SLSQP', bounds = bnds, 
constraints - cons) 
optv 


运行 上 面 的 代码 ,得 到 如 下 结果 : 


Out[94]: 
fun:0.14048796305920866 
jac: array([ 0.14040739, 0.14094629, 0.15554342, 0.15803597, 0. ]) 
message: 'Optimization terminated successfully. ' 


192. 量化 金融 投资 及 其 Python 应 用 


njev:6 
status:0 
success:True 
x:array([ 8.50485211e- 01, 1.49514789e — 01, 6.07153217e - 18, 
6.07153217e - 18]) 


方差 最 小 的 最 优 组 合 权 重 向 量 及 组 合 的 统计 数据 分 别 为 
optv[ 'x']. round(3) 
得 到 如 下 结果 : 


Out[95]: array([ 0.85, 0.15, 0., 0. ]) 
# 得 到 的 预期 收益 率 、 波 动 率 和 夏普 比 


statistics(optv['x']). round(3) 
得 到 如 下 结果 : 
Out[96]: array([ 0.04, 0.14, 0.283]) 


8. 投资 组 合 的 有 效 边界 (前 沿 ) 


有 效 边界 由 既定 的 目标 收益 率 下 方差 最 小 的 投资 组 合 构成 。 
在 最 优化 时 采用 两 个 约束 : 一 是 给 定 目标 收益 率 ,二 是 投资 组 合 权重 和 为 1 。 


def min variance(weights): 
return statistics(weights)[1] 

# 在 不 同 目标 收益 率 水 平 (target_returns) 循 环 时 ,最 小 化 的 一 个 约束 条 件 会 变化 
target returns = np.linspace(0.0,0.5,50) 
target variance - [] 
for tar in target returns: 

cons = (('type':'eq', 'fun': lambda x:statistics(x)[0] - tar], ('type': 'eq', '£un': lambda x:np. sum 
(x) -1)) 

res = sco. minimize(min variance, noa * [1./noa,], method = 'SLSQP', bounds = bnds, 
constraints = cons) 

target variance. append(res[ 'fun']) 
target variance - np.array(target variance) 


在 最 优化 结果 的 图 形 中 ,以 又 号 表示 构成 的 曲线 是 有 效 边界 (目标 收益 率 下 最 优 的 投资 
组 合 ) ,以 红星 表示 夏普 比 最 大 的 投资 组 合 ,以 黄 星 表示 方差 最 小 的 投资 组 合 。 


plt.figure(figsize = (8,4)) 

HAR: 蒙特 卡 洛 随机 产生 的 组 合 分 布 

plt.scatter(port variance, port returns, c = port returns/port variance,marker = 'o') 
# 叉 号 : 有 效 边界 

plt.scatter(target variance,target returns, c = target returns/target variance, marker = 'x') 
# 红 星 : 标记 夏普 比 最 大 的 投资 组 合 

plt.plot(statistics(opts['x'])[1], statistics(opts['x'])[0], 'r* ', markersize = 15.0) 
# 黄 星 : 标记 方差 最 小 的 投资 组 合 

plt.plot(statistics(optv['x'])[1], statistics(optv['x'])[0], 'y*', markersize = 15.0) 
plt.grid(True) 


plt.xlabel('expected volatility') 
plt. ylabel('expected return') 
plt.colorbar(label = 'Sharpe ratio') 


运行 上 面 的 代码 , 即 得 到 如 图 20-6 所 示 的 图 形 。 
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图 20-6 ”投资 组 合 的 可 行 集 和 有 效 边界 


练习 题 


按照 本 章 中 的 例题 ,在 网 上 选择 数据 ,使 用 Python 中 的 工具 重新 操作 一 遍 。 
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